☰

深夜重磅炸彈！OpenAI再壓谷歌一頭，最強模型GPT-4o免費發佈，語言對話媲美人類反應

出品｜本站科技《態度》欄目

作者｜普子胥

編輯｜丁廣勝

5月14日，OpenAI春季發佈會，依舊是奧特曼熟悉的味道：

不僅搶在自己最大競爭對手“Google I/O”大會前發佈，並在會前數次吹風：“將會帶來很有意思的東西。”

現場，OpenAI首席技術官MiraMurati，在輕鬆的氛圍中宣佈：Open AI推出桌面版ChatGPT，並推出名爲GPT-4o的全新旗艦人工智能模型。

那麼，GPT-4o有何特別之處？

而堪稱AI圈裡最懂PR的奧特曼，這一次，有沒有繼續吹牛？

一、電影《Her》，從科幻走進現實

“GPT-4o 可以綜合利用語音、文本和視覺信息進行推理。”

現場，OpenAI首席技術官MiraMurati指出，過去的GPT-4可以處理由圖像和文本混合而成的信息，並能完成諸如從圖像中提取文字或描述圖像內容等任務。

不過，GPT-4o的強大之處，就是可以在GPT-4的基礎上，新增語音處理能力。

並且，GPT-4o還可接受文本、音頻和圖像的任意組合作爲輸入，並生成文本、音頻和圖像的任意組合輸出。

這也意味着，GPT-4o相比GPT-4，不僅能看文本，還能看圖像，能言善道，反應迅速。

並且更加像人。

而這，是這次GPT-4o的核心變化。大家紛紛驚呼，OpenAI再次改變世界！

1、實時迴應，反應迅速

現場，演示者提問結束後，GPT-4o 幾乎可以做到即時迴應，沒有停頓。

答案生成後，GPT-4o 能夠立馬將文本轉語音，進行朗讀。

準確來說，這不像是和一個AI進行模塊式問答，而更像是和一個“真人”對話。

事實上，GPT-4o有着更快的反應速度：它可以在232毫秒的時間內響應音頻輸入，平均爲320毫秒，這與人類在談話中的反應時間，基本一致。

此外，GPT-4o在英語文本和代碼上的性能與 GPT-4 Turbo 的性能相匹配，在非英語文本上的性能顯着提高，同時 API 的速度也更快，成本降低了50%，速度是GPT-4-turbo的兩倍。

與現有模型相比，GPT-4o 在視覺和音頻理解方面尤其出色。

2、全能立體，溝通無障礙

相比前輩們，GPT-4o變得更加強大了

現場，它不僅可以通過畫面實時解答數學方程，並能根據統計畫圖，進行現場指導。

並且，GPT-4o還能跨越國界，掌握多國語言。

現場，GPT-4o就根據實時提問，來了一段意大利語。

事實上，根據傳統基準測試，GPT-4o 在文本、推理和編碼智能方面實現了 GPT-4 Turbo 級別的性能。

此外，GPT-4o同時在多語言、音頻和視覺功能上設置了新的高水位線。

3、更加自然，更加真實，也更加“像人”

GPT-4o 還有着更加擬人的功能。

現場，GPT-4o還能調整說話時的語氣，根據指令改變聲音。

能夠以自然的、聽起來像人類的聲音說話，甚至還可以唱出部分迴應。

不管是誇張、戲劇，乃至低沉陰冷，甚至機械嗓音。

GPT-4o都展現出了其聲音極強的張力和可塑性。

不僅如此，在與人對話中，它還能發出不止一種語氣詞。

以及最重要的，對話中，GPT-4o體現了很多“情緒化”的表達。能夠查看圖表圖像並進行討論，檢測用戶情緒。

現場，它能通過音頻感知，去試着對觀看提問者的面部表情，做出情緒分析。

這不由得令人聯想道電影《Her》中，那位具有磁性嗓音、複雜多變的AI，正從科幻走向現實。

二、更加簡單、直觀的GPT-4o ，要不要錢？

那麼，強大的GPT-4o是如何感知情緒的？它是否會收費呢？

GPT-4o 之前，人們雖然可以使用語音模式與 ChatGPT 對話。然而，其平均延遲爲2.8秒 (GPT-3.5) 和5.4秒 (GPT-4)。

一般而言，ChatGPT 採用的語音模式，是由三個獨立模型組成：例如，其中一個簡單的模型，是將音頻轉錄爲文本，GPT-3.5或 GPT-4接收文本並輸出文本，再由型將該文本轉換回音頻。

然而，這也意味着GPT-4丟失了大量信息：它無法直接觀察音調、多個說話者或背景噪音，也無法輸出笑聲、歌唱或表達情感。

因此，此次的 GPT-4o，則達成了跨文本、視覺和音頻端到端地訓練了一個新模型，這意味着所有輸入和輸出都由同一神經網絡處理。

這也使得，該模型使用起來將更加簡單、直觀。

GPT-4o 的出現，則標誌着一個夠使用文本、語音和視覺交互的數字助手，一個能夠查看用戶上傳的屏幕截圖、照片、文檔或圖表，並進行對話的貼心管家，正在加速而來。

此外，OpenAI 首席技術官 Mira Murati 表示，ChatGPT 現在還將具有記憶功能，這意味着它可以從之前與用戶的對話中學習。

“這是我們第一次在易用性方面真正邁出一大步，”穆拉蒂在公司舊金山總部的現場演示中說道。 “這種互動變得更加自然，也更加容易。”

值得注意的是，此前OpenAI 發佈新版 ChatGPT 模型時，通常會將其置於付費牆之後。不過，這次 GPT-4o 將免費提供給所有用戶，付費用戶則可以享受五倍的調用額度。

Mira Murati表示，該模型將在未來幾周內分階段集成至 OpenAI 的各個產品之中GPT-4O將免費提供。

此外，OpenAI還將推出桌面版ChatGPT，並推出名爲GPT-4o的全新旗艦人工智能模型。

三、GPT-4o只是開胃小菜

儘管此次GPT-4O亮點不少，然而，不管是展示時間置於谷歌大會前一天的微妙，還是推出桌面版ChatGPT免費使用，無一例外都凸顯了OpenAI 隱隱的競爭壓力和增長焦慮。

事實上，本次OpenAI 春季發佈會之前的數天，OpenAI創始人薩姆奧特曼就多次發聲，提前預熱，給觀衆留足了懸念：“我們一直在努力開發一些我們認爲人們會喜歡的新東西，對我來說感覺就像魔法一樣。”

不過，最終呈現的產品，既不是GPT5、也不是搜索引擎，似乎擺了大衆一道。

從這點傷說，奧特曼堪稱AI圈最懂PR的人。

此前，Sora發佈的時間點，恰好趕在 Anthropic 的 Claude3以及其他大模型上線時間段。

彼時Sora登場“搶戲”，就用生成式視頻的形式，對其他文本大模型進行降維打擊。

於是立即輿論調轉，全世界都將聚光燈對準Sora，OpenAI 又成了業界唯一的明星。可值得玩味的是，Sora直至現在，也沒有開放給公衆使用。

而屢屢“搶戲”的奧特曼，實則有着肉眼可見的急迫與壓力。

一方面，OpenAI本次春季開發大會，呼聲最高的AI搜索產品，就被放了鴿子。

業內人士曾指出，OpenAI要想在AI聊天機器人領域保持領先，AI搜索是繞不過去的，現在包括谷歌及AI搜索初創公司Perplexity等對手正在發力。

此前，Perplexity已憑藉AI搜索和引用功能獲得了10億美元的估值。此外，OpenAI強大的對手谷歌，也在全面AI化它的搜索引擎業務，並計劃在下週的開發者大會上公佈Gemini AI模型的最新計劃。

然而，根據報道，先前ChatGPT搜索的內測資格，雖然總體評價不錯，但仍有瑕疵：OpenAI的AI搜索評價是，對於它不知道的信息會去聯網，但對於非常實時的信息，依然不能很好地處理。

不僅如此，此次GPT-4O的免費推出，則凸顯出OpenAI在增長上的面臨的焦慮。

此前，OpenAI的用戶增長在短時間內經歷了顯著的波動。

例如，從2023年初到中期，OpenAI的月活躍用戶數量迅速增長，從1億增加到接近10億。

然而，進入2024年後，OpenAI的GPT-4的性能下降和用戶體驗問題開始受到關注。一個直觀的例子是，即用戶在使用GPT-4時，發現其記憶能力和對指令的遵從性有所下降，這意味着GPT-4可能無法有效地記住之前的對話內容或正確執行復雜的指令。

此外，OpenAI與微軟的合作關係緊張也影響了開發者社區，導致一些中小企業開發者選擇離開OpenAI平臺。

儘管，競爭與增長並非是OpenAI一家難唸的經。不過，作爲AI的領頭羊，OpenAI這次的GPT-4O，或許只能是道開胃小菜。

深夜重磅炸彈！OpenAI再壓谷歌一頭，最強模型GPT-4o免費發佈，語言對話媲美人類反應

相關資訊