OpenAI開發者大會派禮包:大幅降低模型成本,AI語音加持App,小模型“蹭”大模型性能

本文作者:李丹

來源:硬AI

美東時間10月1日週二,OpenAI舉行了年度開發者大會DevDay,今年的大會並沒有任何重大的產品發佈,相比去年大會顯得更低調,但OpenAI也爲開發者派發了幾個大“禮包”,對現有的人工智能(AI)工具和API套件做了改進。

本次OpenAI DevDay推出一系列新工具,主要包括四大創新:提示詞緩存(Prompt Caching)、視覺微調(Vision Fine-Tuning)、實時API(Realtime API)、模型蒸餾(Model Distillation),在降低模型成本、提高模型視覺理解水平、提升語音AI功能和小模型性能方面,給開發者帶來福音。

有評論稱,今年DevDay的重點是提高開發者的能力和展示開發者圈子的故事,這表明隨着AI領域的競爭日益激烈,OpenAI的戰略發生了轉變。上述新工具突出表明,OpenAI的戰略重點是:增強其開發者的生態系統,而不是直接在終端用戶應用領域競爭。

有媒體提到,在DevDay活動前的記者會上,OpenAI的首席產品官Kevin Weil談及最近OpenAI首席技術官Mira Murati和首席研究官Bob McGrew離職,稱他們離開不會影響公司發展,“我們不會放慢腳步”。

提示詞緩存(Prompt Caching)可減少輸入token成本多達50%

提示詞緩存被視爲本次DevDay發佈的最重要更新。該功能旨在降低開發者的成本、減少延遲。

OpenAI引入的提示詞緩存系統自動對模型最近處理的輸入token提供50%的折扣,這可能會讓經常重複使用上下文的應用程序App得到大量節省。如此大幅降低成本給企業和初創公司提供了探索新應用的重大機遇,因爲這些應用以前由於費用高昂無法實現。

OpenAI 平臺產品負責人 Olivier Godement稱,兩年前GPT-3大獲成功,現在OpenAI已經將相關成本降低了將近1000倍。他舉不出來其他任何一個兩年內能將成本降低同樣幅度的例子。

以下OpenAI的圖表展示了,提示詞緩存可以大幅降低應用AI模型的成本,相比各種GDP模型的非緩存token,緩存輸入token的成本可以減少多達50%。

視覺微調(Vision Fine-Tuning):視覺AI新前沿

OpenAI DevDay公佈,OpenAI最新的大語言模型(LLM) GPT-4o 引入了視覺微調。此功能讓開發者能用圖像和文本自定義模型的視覺理解功能。

這是被稱爲視覺AI新前沿的重大更新。它可能會對自動駕駛汽車、醫學成像和視覺搜索功能等領域產生深遠影響。

OpenAI 稱,東南亞版“美團+滴滴” Grab 已經利用這項技術改進其地圖服務。僅使用 100 個示例,Grab 就讓車道計數的準確率提高了20%,限速標誌定位率提高13%。

這種現實世界的App展示了視覺微調的可能性,即使用小批量的視覺訓練數據,顯著增強各行各業的AI服務。

實時 API(Realtime API)彌補對話式 AI 的差距

OpenAI DevDay發佈了實時 API,目前處於公開測試beta階段。實時API 本質上簡化了構建語音助手和其他對話式 AI 工具的過程,無需將多個模型拼接在一起進行轉錄、推理和文本到語音的轉換。

這項新產品讓開發人員能創建低延遲的多模態體驗,尤其是在語音轉語音App中。這意味着開發人員可以開始將 ChatGPT 的語音控件添加到App中。

爲了說明該 API 的潛力,OpenAI 展示了 Wanderlust 的更新版本,它是一款在去年大會上展示過的旅行規劃App。

藉助實時 API,用戶可以直接與新版App對話,進行自然對話來規劃行程。該系統甚至允許用戶在語句中間打斷,模仿人類之間的對話。

旅行規劃只是一個例子,實時 API 爲各個行業的語音App開闢了廣泛的可能性。無論是專攻客服、教育領域還是殘障人士使用的無障礙工具,開發者現在都可以利用新的資源創造更直觀、響應更快的AI驅動體驗。

包括營養和健身指導App Healthify 和語言學習平臺 Speak在內,一些App已經將先行一步,將實時API融合到自身產品中。

有評論稱,實時API 的定價並不便宜,每分鐘音頻輸入收費0.06 美元,每分鐘音頻輸出收費0.24 美元,但對於希望創建基於語音App的開發人員來說,它仍然可以代表一個重要的價值主張。

模型蒸餾(Model Distillation)讓小模型也可擁有尖端模型功能

模型蒸餾被視爲OpenAI此次最具變革性的新工具。這種集成的工作流程讓開發人員能通過使用諸如GPT o1-preview 和 GPT-4o這類尖端模型的輸出,對相對較小且經濟實用的高校模型進行微調,從而提高更高效模型、如 GPT-4o mini的性能。

這種方法讓小公司也可能利用與尖端模型類似的功能,並且無需承擔使用這類模型的計算成本。它有助於化解 AI 行業長期以來在尖端、資源密集型系統與更易於訪問但功能較弱的系統之間的鴻溝。

比如一家從事醫療技術的小型初創公司要爲農村的診所開發一種AI 驅動的診斷工具。使用模型蒸餾,該公司可以訓練一個緊湊的模型,該模型可以捕捉大模型的大部分診斷能力,同時只需要在標準的筆記本電腦或平板電腦上運行。

因此,模型蒸餾可以讓資源受限的環境也能享有複雜的 AI 功能,有可能提高醫療服務欠發達地區的醫療保健水平。