GPT-4 Turbo更強更便宜,GPTs、GPT商店最大亮點,這是OpenAI首個開發者日

機器之心報道

機器之心編輯部

繼今年春天發佈 GPT-4 之後,OpenAI 又創造了一個不眠夜。

過去一年,ChatGPT 絕對是整個科技領域最熱的詞彙。OpenAI 也依靠 ChatGPT 取得了驚人的成績:總結來說,OpenAI 證實 ChatGPT 目前每週有超過 1 億活躍用戶,超過 200 萬開者使用 API 等進行開發,與超過 92% 的財富 500 強公司合作。

作爲備受期待的首屆開發者大會,Altman 今天也帶來了一系列全新的 AI 模型和工具,包括如下:

全新的 GPT-4 Turbo 模型

更可控的輸出:函數調用增強、JSON 模式

開放新的 API:DALLE-3、GPT-4 Turbo with vision、TTS 和 Whisper V3

GPT-4 微調、自定義模型

GPTs:創建自定義版本的 ChatGPT

GPT Store 即將上線

Assistants API:更接近 AI 智能體的體驗

從這些更新的展示中可以明顯感覺到,OpenAI 正在努力把 ChatGPT 構建成一個自動化程度更高的 AI 智能體,這個智能體不再是「紙上談兵」,而是越來越多地通過操縱現有應用對物理世界產生影響。比如,在活動現場,一位 OpenAI 的工作人員通過語音與 ChatGPT 對話,給在場的每一位觀衆發放了 500 美元 OpenAI 代金券。

GPT-4 Turbo:128k 上下文、價格更便宜

會上首先亮相的是 GPT-4 的全新版本 GPT-4 Turbo。我們知道,OpenAI 在今年 3 月發佈了 GPT-4 初始版本,並在 7 月廣泛提供給了所有開發者。Sam Altman 在現場一一解析了 GPT-4 Turbo 的幾大亮點。

首先,GPT-4 Turbo 比 GPT-4 更強大,支持 128k 上下文窗口,可以在單個 prompt 中處理超過 300 頁的文本。更長的上下文意味着模型輸出結果更加準確。

其次,GPT-4 Turbo 能夠了解更近、更豐富的世界知識,外部文檔和數據庫的截止日期更新到了 2023 年 4 月。與之相比,GPT-4 的知識庫截止日期爲 2021 年 9 月。

接下來是函數調用更新。函數調用允許將應用程序函數或外部 API 描繪給模型,並讓模型智能選擇「包含調用這些函數的參數」的 JSON 對象。

今天,GPT-4 Turbo 在這方面做了幾項改進,比如在一條消息中能夠調用多個函數。用戶可以在發送一條消息時請求多個操作,如「打開車窗並關閉空調」。此外函數調用的準確性也得到提升,GPT-4 Turbo 更有可能返回正確的函數參數。

與此同時,指令遵循性能得到提升並支持了 JSON 模式。其中在需要嚴格指令遵循的任務上,GPT-4 Turbo 的表現比以往的模型更好,比如生成特定格式(始終以 XML 來響應)。

GPT-4 Turbo 支持了新的 JSON 模式,確保模型使用有效的 JSON 進行響應。新的 API 參數 response_format 限制模型輸出以生成語法正確的 JSON 對象。該模式對開發者在聊天完成(Chat Completions)API 中生成 JSON 非常有用。

多模態能力也是大會的重點內容,爲此 OpenAI 開放了全新的 API。

GPT-4 Turbo 集成了 DALL・E 3,能夠接受並處理圖像輸入(即 GPT-4 Turbo with vision),生成標題、分析現實世界的圖像、閱讀帶圖表的文檔等。

對於 GPT-4 Turbo with vision,開發者可以通過 API 中的 gpt-4-vision-preview 來訪問。OpenAI 計劃爲主要的 GPT-4 Turbo 模型提供視覺支持,價格取決於輸入圖像的大小,例如像素 1080×1080 的圖像需要的成本爲 0.00765 美元。

同樣地,開發者可以通過圖像 API 將 DALL・E 3 直接集成到他們的應用程序和產品中。與之前版本的 DALL・E 類似,該 API 內置審覈功能,可以幫助開發者保護自己的應用程序免遭濫用。OpenAI 提供了不同的格式和質量選項,生成一張圖像的起價爲 0.04 美元。

在文本轉換語音領域,開發者現在可通過文本到語音(text-to-speech)API,將文本轉化爲人類質量的語音。全新 TTS 模型提供了 6 種預設聲音和兩種模型變體即 tts-1 和 tts-1-hd,其中 tts 針對實時用例進行優化,tts-1-hd 針對質量進行優化。每輸入 1000 字符的起價爲 0.015 美元。

有了新版本 GPT-4 Turbo,OpenAI 也沒有「忘了」GPT-4。

現在,GPT-4 微調正在實驗訪問階段。OpenAI 正在創建一個用於 GPT-4 微調的實驗性訪問程序。不過與 GPT-3.5 微調獲得的實質收益相比,GPT-4 微調需要更多工作才能對基礎模型實現有意義的改進。

未來,隨着 GPT-4 微調在質量和安全性方面得到提升,GPT-3.5 微調的活躍使用者可以選擇在他們的微調控制中心應用 GPT-4 程序。

在微調之外,對於那些需要更多定製化功能的組織機構,OpenAI 啓動了自定義模型(Custom Models)計劃,允許組織機構與 OpenAI 研究人員一起針對特定領域來訓練定製化 GPT-4。這包括修改模型訓練過程的每一步,從額外的領域特定預訓練到運行鍼對特定領域的定製化 RL 訓練後(post-training)過程。

組織機構對其定製化模型擁有獨家訪問權。OpenAI 不會提供給其他客戶或與其他客戶共享,也不會用於訓練其他模型。此外提供給 OpenAI 以訓練定製化模型的專有數據不會在其他上下文中重複使用。不過,OpenAI 表示,目前自定義模型的功能有限且成本高昂。

最後是價格。如你我所見,GPT-4 Turbo 性能更強了,但價格卻被打下來了。對比 GPT-4,GPT-4 Turbo 的輸入 token 價格是其 1/3,爲 0.01 美元 / 1000token;輸出 token 價格是其 1/2,爲 0.03 美元 / 1000token。

同樣地,GPT-3.5 Turbo 16K 以及 GPT-3.5 Turbo 4K、16K 微調的價格也都有一定程度的下降,具體參見下圖。

目前如何使用 GPT-4 Turbo 呢?

所有付費開發者都可以通過 API 中的 gpt-4-1106-preview 來試用 GPT-4 Turbo。未來幾周,OpenAI 將發佈穩定的生產就緒(production-ready)模型。

GPTs 與 GPT 商店

新模型的發佈令人激動。但接下來這一發布,可能會令你聯想到十幾年前蘋果的發佈會,這也是衆多網友認爲的最大亮點。

Sam Atlman 發佈了 GTPs,讓用戶們無需代碼,結合自己的指令、外部知識和能力創建自定義版本的 ChatGPT。

自從推出 ChatGPT 以來,用戶們一直期待能夠定製 ChatGPT。OpenAI 在 7 月推出了自定義指令,可讓用戶設置一些首選項,但這無法完全滿足用戶。許多高級用戶會維護一份提示和指令集列表,並將它們手動複製到 ChatGPT 中。GPTs 的發佈能夠自動幫用戶們完成這項工作了。

從現場展示來看,爲了創建一個 GPT,OpenAI 允許用戶使用一個名爲 GPT Builder 的對話式 AI 模型,讓用戶使用自然語言就能構建自定義的 GPT。

Sam Altman 現場展示如何通過自然語言構建自定義 GPT。在這個例子中,Altman 要求 ChatGPT 創建一個可以給創業者提供建議的 GPT。在接收到指令後,ChatGPT 不僅構建了這個 GPT,還提供了頭像、命名建議。

除了使用內置功能之外,用戶還可以通過向 GPT 提供一個或多個 API 來定義定製化 action。與插件一樣,定製 action 允許 GPTs 集成外部數據或與現實世界交互。

此舉目的非常簡單,OpenAI 要充分挖掘社區開發者的力量,「我們相信最驚人的 GPT 產品將來自社區。無論您是教育家、教練,還是隻是喜歡構建有用工具的人,您都不需要了解編碼來製作工具並分享您的專業知識。」

同時,OpenAI 也會在本月底上線 GPT Store,讓開發者們分享、發佈自己創建的 GPTs。

沒錯,你是不是想到了蘋果商店?OpenAI 明確表示 GPT Store 上會有 GPT 的排行榜。活動上,Altman 表示 OpenAI 將向最常用、最有用的 GPT 支付收入的一部分,但是否會向發佈 GPT 的創建者們收費還未知。

目前,GPTs 可供 ChatGPT Plus 和企業用戶試用。

OpenAI 工作人員現場演示 GPTs。她構建了一個能與個人行程表聯通的 GPT,然後以對話的形式命令 GPT 給 Altman 發信息,結果 Al‍tman 真的收到了。

Assistants API

在 keynote 環節,Sam Altman 還發布了「Assistants API」,這是他們幫助開發人員在自己的應用中構建類似「AI 智能體(agent)」體驗的第一步。

通俗點來說,「assistant」可以理解爲一種爲某個專門用途構建的 AI,它有特定的指令,利用額外的知識,並能調用模型和工具來執行任務。新的 Assistants API 提供了代碼解釋器(Code Interpreter)、檢索(Retrieval)以及函數調用(function calling)等新功能,可以處理大量以前你需要自己完成的繁重工作,使你能夠構建高質量的 AI 應用。

這個 API 設計靈活,用例包括基於自然語言的數據分析應用、編碼助手、AI 驅動的度假計劃器、聲控 DJ、智能可視畫布等等。Assistants API 基於支持新 GPTs 產品的相同功能而構建:自定義指令和工具,如代碼解釋器、檢索和函數調用。

這個 API 引入的一個關鍵變化是持久和無限長的線程,它允許開發人員將線程狀態管理移交給 OpenAI,並繞過上下文窗口限制。使用 Assistants API,你只需將每條新消息添加到現有線程中即可。

Assistants 還可根據需要調用新工具,包括

代碼解釋器(Code Interpreter):在沙盒執行環境中編寫和運行 Python 代碼,並生成圖形和圖表,處理包含各種數據和格式的文件。它允許你的 assistants 反覆運行代碼,以解決具有挑戰性的代碼和數學問題等。

檢索(Retrieval):利用模型之外的知識(如專有領域數據、產品信息或用戶提供的文檔)增強 assistants。這意味着,你不需要計算和存儲文檔的嵌入,也不需要實現分塊和搜索算法。Assistants API 會根據 OpenAI 在 ChatGPT 中構建知識檢索的經驗,優化要使用的檢索技術。

函數調用(Function calling):使助理能夠調用你定義的函數,並將函數響應納入其信息中。

OpenAI 的工作人員現場演示 Assistants API 的用法:它不僅能列出巴黎旅遊建議,還能在地圖上將計劃中提到的地點按類別標記出來。

Assistants API 自動閱讀文檔、調用代碼解釋器來計算旅行開銷。

OpenAI 表示,與平臺的其他部分一樣,傳給 OpenAI API 的數據和文件絕不會用於訓練他們的模型,開發人員可以在他們認爲合適的時候刪除數據。

開發者可以前往 Assistants playground 試用 Assistants API 測試版,無需編寫任何代碼:https://platform.openai.com/playground?mode=assistant

從今天起,所有開發者都可以使用 Assistants API 測試版。定價參見:https://openai.com/pricing

其他更新

Copyright Shield

OpenAI 表示,他們致力於通過系統中的內置版權保護措施來保護客戶,所以推出了新的版權保障措施 ——Copyright Shield。如果你面臨有關版權侵權的法律索賠,他們將介入並保護客戶,並支付由此產生的費用。這適用於 ChatGPT 企業版和我們的開發者平臺的一般可用功能。

Whisper v3 和 Consistency Decoder

Whisper 是 OpenAI 開源的一款語音轉文本模型。在這次開發者大會上,Altman 官宣了新版本 Whisper large-v3,其特點是提高了各種語言的識別性能。他們還計劃在不久的將來在 API 中支持 Whisper v3。

此外,他們還在開源 Consistency Decoder,它是 Stable Diffusion VAE 解碼器的直接替代品。該解碼器可改進所有與 Stable Diffusion 1.0+ VAE 兼容的圖像,並在文本、人臉和直線方面有顯著改進。

最後,對於今晚的發佈,你怎麼看呢?

博客鏈接:https://openai.com/blog/new-models-and-developer-products-announced-at-devday

© THE END

轉載請聯繫本公衆號獲得授權

投稿或尋求報道:content@jiqizhixin.com