AI幹掉聲優?音頻大模型追逐“圖靈時刻”

七十年前,“人工智能之父”圖靈提出,如果人無法判斷屏幕的另一側究竟是人還是機器,就證明機器具備了人一樣的智能。這一經典的圖靈測試如同北斗星一般,指引着AI行業的工作者們不斷前進。

AI對物理世界的探索無疑是當下的熱門話題。以ChatGPT和Sora爲代表的AIGC展現出了令人震撼的表達能力,Sora更被認爲是AI感知物理世界的初步探索。不過,上海大學計算機科學與技術系教授武星在璞躍中國日前舉辦的以“AIGC賦能產業創新”爲主題的Global Tech Network活動上表示,“我更贊同圖靈獎獲得者楊立昆的觀點:Sora提示詞中生成的大部分看起來逼真的視頻並不表明視頻理解了物理世界。”

喜馬拉雅珠峰AI科技產品研發總監呂睿韜也持類似的觀點,“Sora的表達雖然很好,但它本質是假裝出來的,並沒有真正理解世界的規則。”

AI與物理世界交互一般可以通過視頻與音頻,相比之下,音頻似乎能夠更早達到圖靈時刻。

“目前音頻產業界達成了共識:第一,未來一定是實時跨語種語音交互,這件事情會提前發生;第二是語音表達的人格化,現在所有的AI都在裝作是人,但是音頻模型到30B以上的時候,真的可能超越人。”呂睿韜在活動上表示,“喜馬拉雅每天播放量的10%是AI大模型做的,(大家已經)分不出是真人還是AI了,這是音頻大模型能力的涌現。”

“2023年所有的行業裡的音頻大模型其實都只復刻了音色,但這隻佔30%,並不是完全復刻人。”呂睿韜介紹稱,“我們現在在做的是15秒60個字能夠實現從腔調、口吻、音色,包括情感信息都可以學習到、極速生成的大模型。”

音頻大模型不僅可以做語音,同時可以做音效和音樂,目前喜馬拉雅正圍繞主營業務做語音,包括對話形式,以及多角色、多情感的演繹能力等。呂睿韜稱,去年國內很多短劇出海都是喜馬拉雅在做的配套,短劇是有聲書的視覺版,去掉短劇裡的視覺,其實就是有聲書,“如何讓AI把有聲書演好,這是當前的命題。”