☰

Open AI發佈實時響應的GPT-4o AI模型國產手機AI語音助手能趕上嗎？

北京時間5月14日凌晨，Open AI公佈了最新的GPT-4o人工智能模型，其中“o”代表“Omnimodel”（全能模型）。據悉，GPT-4o提供了GPT-4同水平的智能，並改進了文本、視覺和音頻方面的能力，現在這款模型能夠以這三者任意組合的形式進行輸入和輸出，交互方式更多樣、更自然。

GPT-4o的發佈無疑在人工智能領域投下了一顆“重磅炸彈”，再結合近期一些消息——“蘋果公司被曝正與OpenAI敲定一項協議，今年將後者的部分技術引入iPhone，藉此蘋果將能提供由ChatGPT支持的聊天機器人作爲iOS 18中人工智能功能的一部分”，外界認爲，GPT-4o不僅會對國內大模型行業帶來衝擊，同時也將爲行業帶來新的機遇。

一位國內手機廠商的AI從業者對記者分析稱：“從國內目前的進度來看，追上OpenAI達到的AI語音助手功能估計還需要一年左右的時間，這不是國內和國外（在AI上）的差別，而是OpenAI vs（對抗）其他所有公司，OpenAI現在的優勢在於語音情感化、實時視頻多模態以及‘恐怖’的推理速度。”

GPT-4o語音助手進化：實時響應，能識別用戶情感

雖然GPT-5沒有如期到來，但GPT-4o私人語音助手的進化依舊讓不少人感嘆道：“太酷了。”

具體來看，在GPT-4o的支持下，它可以用各種語調、情緒給你講睡前故事，並且交互的語音感情豐富，可以變換語音語調、風格，還可以隨時打斷，甚至“即興”唱歌。

Quartz報道稱，GPT-4o的情感屬性使AI聊天機器人比蘋果的Siri更加個性化。Siri給人的感覺就像在和一個機器人對話，但OpenAI的演示清楚地表明，GPT-4o具有“人工情感智能”，能夠識別用戶的情感並與你的情緒相匹配。

尤其在響應速度方面，GPT-4o幾乎解決了延遲問題，其可以在短短232毫秒內響應音頻輸入，平均爲320毫秒，這接近於對話中的人類響應的時間。並且，用戶在進行對話時還可以隨時打斷。

在縮短延遲提升體驗、情緒感知能力之外，GPT-4o在GPT-4的基礎上還進行了多項升級，例如GPT-4o具有3D視覺內容生成能力。演示人員手寫“3X+1=4”數學題給GPT-4o看，GPT-4o便能在線語音指導如何一步步解題；而客戶端的ChatGPT則能隨時解決寫代碼、讀圖表等任務。

性能提升的同時，GPT-4o價格還更便宜。OpenAI公司表示，新模型性能更強，接口調用價格卻只有此前模型的一半。所有用戶都可以免費使用新模型，不過消息數量會受到限制，付費用戶消息上限更高。預計新模型各項功能會在未來幾周逐步推出。

AI語音助手重回焦點

OpenAI今天更新後，數年前飽受詬病的AI語音助手又重回人們的視線。過去，人跟AI進行語音對話，基本上都經歷三步：用戶說話後AI進行語音識別，即音頻轉文本；大模型拿到這段文本，進行回覆，產出文本；文本進行語音合成，變成音頻。但上述三個階段會導致較長的延遲以及信息損耗，無法表達情感等。

AI語音助手並不是一個新鮮事物，當前幾乎各大手機廠商都在其智能手機中內置了自己的AI語音助手，例如蘋果的“Siri”、小米的“小愛同學”、華爲的“小藝”、榮耀的“YOYO”、OPPO的“小布”。

其中，爲人熟知的當屬Siri。公開資料顯示，Siri於2011年問世，當時被譽爲AI技術的突破。然而多年來，Siri在某些方面的表現仍不夠理想。例如，Siri的語音識別能力還有待提高，在某些情況下，Siri可能會無法準確地識別用戶的語音，導致用戶無法得到他們想要的信息或服務；其次，Siri的理解能力也有限，它很難理解對話的上下文，並只能執行簡單的任務。

Siri的聯合創始人、前首席執行官達格·基特勞斯（Dag Kittlaus）甚至曾直言，在被蘋果收購後，Siri可能沒有充分發揮其潛力，但語音助手仍將是數字技術的未來。

相比之下，Google Assistant和OpenAI的ChatGPT具有先進的自然語言處理能力，這使它們能夠理解人類語言的細微差別並作出相應的反應。一旦蘋果與OpenAI達成協議，蘋果不僅可以縮短產品研發週期，還可以利用OpenAI在人工智能領域的積累迅速提升自家產品的智能化水平，帶來更加智能、更加互動的Siri。

放眼國內手機廠商，近年來國產手機廠商發佈的新手機中，部署在手機“端側”的AI大模型成爲重中之重。其中，OPPO推出安第斯大模型，參數量從70億到1000億，可以部署在端側和雲端；vivo藍心大模型的參數量從10億到1750億，可以部署在端側和雲端；小米MiLM大模型參數從13億到60億，主要部署在端側；榮耀“魔法大模型”則有70億參數，主要部署在端側。

在AI落地應用方面，當前國內的AI技術主要集中在自動攝像頭控制、人臉識別和身份驗證、語音識別和轉錄等方面。其中，日常生活裡，AI可以對語音助手、自動化辦公、智能推薦系統等場景進行大幅優化，增強體驗減少冗餘工作量；在娛樂方面，AI可以處理複雜圖像視頻，如圖像增強、分辨率增強、圖像修復、色彩校正、消除物體以及智能摳像等等。此外，AI還能夠從各種格式（例如，音頻、視頻、電子郵件附件）的長篇內容提取內容，生成簡潔的摘要等等。

值得關注的是，當前主流手機廠商推出的大模型應用其實並沒有太大差異。從長遠發展來看，AI助手可以深度集成於操作系統，擁有理解與預測用戶需求的能力，進而爲實現無縫銜接的跨應用服務提供支持。

在迴應幾年之後榮耀的AI會帶來怎樣的想象力或者場景時，榮耀CEO趙明曾在今年3月表示：“我們堅信AI可以改變智能手機的未來，今天即使做得最好的蘋果實際上操作也非常不方便，未來用AI勢能改造的時候，比如說一個電子設備，我需要它的服務，用眼睛一看，就提供相應服務；或者打一個響指，這個服務就會過來。”

當談及國產手機人工智能助手與GPT-4o之間的差距時，一位從業人士對記者稱：“主要（差距）還是算法和雲端算力。”前述AI從業者則表示：“我們初步看了一些榜單，阿里通義千問多模態模型已經超越了GPT-4V，當然，它離GPT-4o還有差距。現在的問題是，OpenAI是一家公司，而國內可能得幾家（大模型廠商）組裝起來（才能）追齊，我們的壓力還是很大的，目前OpenAI（處於）斷崖式超前。”

Open AI發佈實時響應的GPT-4o AI模型 國產手機AI語音助手能趕上嗎？

相關資訊

Open AI發佈實時響應的GPT-4o AI模型國產手機AI語音助手能趕上嗎？