深夜重磅炸彈!OpenAI再壓谷歌一頭,最強模型GPT-4o免費發佈,語言對話媲美人類反應

出品|本站科技《態度》欄目

作者|普子胥

編輯|丁廣勝

5月14日,OpenAI春季發佈會,依舊是奧特曼熟悉的味道:

不僅搶在自己最大競爭對手“Google I/O”大會前發佈,並在會前數次吹風:“將會帶來很有意思的東西。”

現場,OpenAI首席技術官MiraMurati,在輕鬆的氛圍中宣佈:Open AI推出桌面版ChatGPT,並推出名爲GPT-4o的全新旗艦人工智能模型。

那麼,GPT-4o有何特別之處?

而堪稱AI圈裡最懂PR的奧特曼,這一次,有沒有繼續吹牛?

一、電影《Her》,從科幻走進現實

“GPT-4o 可以綜合利用語音、文本和視覺信息進行推理。”

現場,OpenAI首席技術官MiraMurati指出,過去的GPT-4可以處理由圖像和文本混合而成的信息,並能完成諸如從圖像中提取文字或描述圖像內容等任務。

不過,GPT-4o的強大之處,就是可以在GPT-4的基礎上,新增語音處理能力。

並且,GPT-4o還可接受文本、音頻和圖像的任意組合作爲輸入,並生成文本、音頻和圖像的任意組合輸出。

這也意味着,GPT-4o相比GPT-4,不僅能看文本,還能看圖像,能言善道,反應迅速。

並且更加像人。

而這,是這次GPT-4o的核心變化。大家紛紛驚呼,OpenAI再次改變世界!

1、實時迴應,反應迅速

現場,演示者提問結束後,GPT-4o 幾乎可以做到即時迴應,沒有停頓。

答案生成後,GPT-4o 能夠立馬將文本轉語音,進行朗讀。

準確來說,這不像是和一個AI進行模塊式問答,而更像是和一個“真人”對話。

事實上,GPT-4o有着更快的反應速度:它可以在232毫秒的時間內響應音頻輸入,平均爲320毫秒,這與人類在談話中的反應時間,基本一致。

此外,GPT-4o在英語文本和代碼上的性能與 GPT-4 Turbo 的性能相匹配,在非英語文本上的性能顯着提高,同時 API 的速度也更快,成本降低了50%,速度是GPT-4-turbo的兩倍。

與現有模型相比,GPT-4o 在視覺和音頻理解方面尤其出色。

2、全能立體,溝通無障礙

相比前輩們,GPT-4o變得更加強大了

現場,它不僅可以通過畫面實時解答數學方程,並能根據統計畫圖,進行現場指導。

並且,GPT-4o還能跨越國界,掌握多國語言。

現場,GPT-4o就根據實時提問,來了一段意大利語。

事實上,根據傳統基準測試,GPT-4o 在文本、推理和編碼智能方面實現了 GPT-4 Turbo 級別的性能。

此外,GPT-4o同時在多語言、音頻和視覺功能上設置了新的高水位線。

3、更加自然,更加真實,也更加“像人”

GPT-4o 還有着更加擬人的功能。

現場,GPT-4o還能調整說話時的語氣,根據指令改變聲音。

能夠以自然的、聽起來像人類的聲音說話,甚至還可以唱出部分迴應。

不管是誇張、戲劇,乃至低沉陰冷,甚至機械嗓音。

GPT-4o都展現出了其聲音極強的張力和可塑性。

不僅如此,在與人對話中,它還能發出不止一種語氣詞。

以及最重要的,對話中,GPT-4o體現了很多“情緒化”的表達。能夠查看圖表圖像並進行討論,檢測用戶情緒。

現場,它能通過音頻感知,去試着對觀看提問者的面部表情,做出情緒分析。

這不由得令人聯想道電影《Her》中,那位具有磁性嗓音、複雜多變的AI,正從科幻走向現實。

二、更加簡單、直觀的GPT-4o ,要不要錢?

那麼,強大的GPT-4o是如何感知情緒的?它是否會收費呢?

GPT-4o 之前,人們雖然可以使用語音模式與 ChatGPT 對話。然而,其平均延遲爲2.8秒 (GPT-3.5) 和5.4秒 (GPT-4)。

一般而言,ChatGPT 採用的語音模式,是由三個獨立模型組成:例如,其中一個簡單的模型,是將音頻轉錄爲文本,GPT-3.5或 GPT-4接收文本並輸出文本,再由型將該文本轉換回音頻。

然而,這也意味着GPT-4丟失了大量信息:它無法直接觀察音調、多個說話者或背景噪音,也無法輸出笑聲、歌唱或表達情感。

因此,此次的 GPT-4o,則達成了跨文本、視覺和音頻端到端地訓練了一個新模型,這意味着所有輸入和輸出都由同一神經網絡處理。

這也使得,該模型使用起來將更加簡單、直觀。

GPT-4o 的出現,則標誌着一個夠使用文本、語音和視覺交互的數字助手,一個能夠查看用戶上傳的屏幕截圖、照片、文檔或圖表,並進行對話的貼心管家,正在加速而來。

此外,OpenAI 首席技術官 Mira Murati 表示,ChatGPT 現在還將具有記憶功能,這意味着它可以從之前與用戶的對話中學習。

“這是我們第一次在易用性方面真正邁出一大步,”穆拉蒂在公司舊金山總部的現場演示中說道。 “這種互動變得更加自然,也更加容易。”

值得注意的是,此前OpenAI 發佈新版 ChatGPT 模型時,通常會將其置於付費牆之後。不過,這次 GPT-4o 將免費提供給所有用戶,付費用戶則可以享受五倍的調用額度。

Mira Murati表示,該模型將在未來幾周內分階段集成至 OpenAI 的各個產品之中GPT-4O將免費提供。

此外,OpenAI還將推出桌面版ChatGPT,並推出名爲GPT-4o的全新旗艦人工智能模型。

三、GPT-4o只是開胃小菜

儘管此次GPT-4O亮點不少,然而,不管是展示時間置於谷歌大會前一天的微妙,還是推出桌面版ChatGPT免費使用,無一例外都凸顯了OpenAI 隱隱的競爭壓力和增長焦慮。

事實上,本次OpenAI 春季發佈會之前的數天,OpenAI創始人薩姆奧特曼就多次發聲,提前預熱,給觀衆留足了懸念:“我們一直在努力開發一些我們認爲人們會喜歡的新東西,對我來說感覺就像魔法一樣。”

不過,最終呈現的產品,既不是GPT5、也不是搜索引擎,似乎擺了大衆一道。

從這點傷說,奧特曼堪稱AI圈最懂PR的人。

此前,Sora發佈的時間點,恰好趕在 Anthropic 的 Claude3以及其他大模型上線時間段。

彼時Sora登場“搶戲”,就用生成式視頻的形式,對其他文本大模型進行降維打擊。

於是立即輿論調轉,全世界都將聚光燈對準Sora,OpenAI 又成了業界唯一的明星。可值得玩味的是,Sora直至現在,也沒有開放給公衆使用。

而屢屢“搶戲”的奧特曼,實則有着肉眼可見的急迫與壓力。

一方面,OpenAI本次春季開發大會,呼聲最高的AI搜索產品,就被放了鴿子。

業內人士曾指出,OpenAI要想在AI聊天機器人領域保持領先,AI搜索是繞不過去的,現在包括谷歌及AI搜索初創公司Perplexity等對手正在發力。

此前,Perplexity已憑藉AI搜索和引用功能獲得了10億美元的估值。此外,OpenAI強大的對手谷歌,也在全面AI化它的搜索引擎業務,並計劃在下週的開發者大會上公佈Gemini AI模型的最新計劃。

然而,根據報道,先前ChatGPT搜索的內測資格,雖然總體評價不錯,但仍有瑕疵:OpenAI的AI搜索評價是,對於它不知道的信息會去聯網,但對於非常實時的信息,依然不能很好地處理。

不僅如此,此次GPT-4O的免費推出,則凸顯出OpenAI在增長上的面臨的焦慮。

此前,OpenAI的用戶增長在短時間內經歷了顯著的波動。

例如,從2023年初到中期,OpenAI的月活躍用戶數量迅速增長,從1億增加到接近10億。

然而,進入2024年後,OpenAI的GPT-4的性能下降和用戶體驗問題開始受到關注。一個直觀的例子是,即用戶在使用GPT-4時,發現其記憶能力和對指令的遵從性有所下降,這意味着GPT-4可能無法有效地記住之前的對話內容或正確執行復雜的指令。

此外,OpenAI與微軟的合作關係緊張也影響了開發者社區,導致一些中小企業開發者選擇離開OpenAI平臺。

儘管,競爭與增長並非是OpenAI一家難唸的經。不過,作爲AI的領頭羊,OpenAI這次的GPT-4O,或許只能是道開胃小菜。