聲網CEO趙斌:“聲網在RTE行業首次實現廣播級4K超高清實時互動體驗”

10月25日消息,RTE2023第九屆實時互聯網大會上,聲網創始人兼CEO趙斌宣佈:“聲網在RTE行業首次實現廣播級4K超高清實時互動體驗。”他指出,“4K不僅僅只有分辨率一個緯度,光亮強度的動態範圍、色彩的真實度、飽和度,以及色彩漸變的細膩程度,都是真正超高清體驗裡不可或缺的一環。”

趙斌認爲,虛擬人+AIGC所創造的情感和情緒價值或將在未來解決社交供需不平衡的現狀,並引領交互對象發生變化。另一層面,隨着AIGC能力的進一步加強,越來越多的應用型開發將被AIGC替代,API+AI的形式將大幅提高應用開發效率。

大模型在快速發展,但交互界面仍侷限於文字聊天互動方式。趙斌提到,通過過去一年的投入和打磨,聲網推出行業首創AIGC-RTC能力模塊,可支持與任何大模型平臺結合,實現更低延時、更自然、更沉浸的實時語音對話,爲企業協作、社交 、直播、遊戲等多種場景提供新玩法、新機會。

聲網合夥人兼客戶成功副總裁孫雨潤介紹,“根據聲網某東南亞頭部泛娛樂客戶數據顯示,當視頻從標清升級高清,停留超過30秒觀衆數提升19%,觀衆人均觀看時長提升30%,同時觀衆打賞率大幅提升。某國內知名社交出海App,從CDN升級聲網極速直播,送禮率增長12.3%。”

聲網首席科學家、CTO鐘聲指出,回溯過去五年,最典型的事件就是大模型的突破,從2017年的Transformer,到如今的ChatGPT-4,人工智能的發展,讓信息傳播和消費智能化的趨勢越來越明顯,萬事歸於中心化AGI接管的趨勢和威脅也越來越明顯。大模型在帶來發展機遇的同時,也帶來了計算需求快速增長、算力受能源供給力限制、大模型數據資源不夠、存儲需求增長過快等問題。未來,我們除了要做負責任的AI之外,在端上和邊緣上的分佈式實時智能將成爲價值公平分配的重要技術手段,也是減緩中心化AGI對人類威脅的有效途徑,這也註定會成爲一個新的技術發展趨勢。

鐘聲認爲,AGI將走進實時互動,實現人人可分身,幫助在應用場景中複製名師、網紅,甚至普通人也將通過AI分身豐富體驗、緩解時間稀缺的瓶頸。此外,他預測,具備端邊實時智能的高清實時互動能力將成新趨勢和競爭焦點。

鐘聲介紹到,實時高清需要許多端上實時AI,在Low Level Vision and Audio這一需求層面,聲網的SDK 4.1.x, 4.2.x版本已經可以支持1080P/4K視頻的例如超分、虛擬背景、感知編碼、降噪、去回聲等底層計算機視覺處理和高音質的計算機聽覺處理能力。在High Level Vision and Audio層面,聲網已經部分實現對物體、聲音、場景的理解和重構能力,包括面捕、動捕、情感計算,物體識別和場景重建等,可以大力改善多種應用場景下的用戶體驗。(一橙)