OpenAI開放ChatGPT高級語音模式,新增5種聲線和自定義指令功能!

智東西9月25日消息,OpenAI今日宣佈本週內將向所有ChatGPT Plus和Team用戶開放高級語音模式。

除了已經可用的4種風格的聲線之外,ChatGPT的高級語音模式中還新增了5種不同風格的聲線。它還會說包括普通話在內的50多種語言。此外,高級語音模式還新增了自定義指令功能和記憶功能。

高級語音模式將會在美國先開放使用。而在歐盟、英國、瑞士、冰島、挪威和列支敦士登的用戶還暫時不可用。

以上這些更新僅適用於GPT-4o模型,而不適用於最近發佈的o1。

一、新增5種風格聲線、2大功能,會說超過50種語言

根據OpenAI的說法,所有訂閱了ChatGPT的Plus和Team計劃的付費用戶都將在本週內獲得ChatGPT高級語音模式的使用權限。下週,OpenAI計劃將ChatGPT高級語音模式擴展到Edu和Enterprise計劃的訂閱用戶。

高級語音模式將會在美國先開放使用。而在歐盟、英國、瑞士、冰島、挪威和列支敦士登的用戶還暫時不可用。

除了已經可用的4種風格的聲線(活躍真誠的Breeze、開放積極的Juniper、沉着直率的Cove和自信樂觀的Ember)之外,ChatGPT的高級語音模式中還新增了5種不同風格的聲線(隨和且多才多藝的Arbor、開朗率真的Maple、聰慧隨性的Sol、冷靜堅定的Spruce和聰明好學的Vale)。

此外,OpenAI爲ChatGPT的高級語音模式新增了自定義指令功能和記憶功能。這些功能的增加,使得語音模式的交互體驗更加豐富和個性化。

新增的自定義指令功能允許用戶根據自己的需求定製ChatGPT的回覆方式,包括但不限於設定對話的正式程度、回覆的長度、稱呼方式,以及是否持有觀點或保持中立。用戶可以通過這個功能告訴ChatGPT更多關於自己的信息,比如職業背景、興趣愛好等,以便ChatGPT能夠提供更加個性化和貼合用戶需求的回答。

而記憶功能則是指ChatGPT能夠記住用戶在不同對話中提供的信息,從而在後續的交流中提供更加相關和個性化的回答。例如,如果用戶告訴ChatGPT他們有某些飲食限制,記憶功能將使得ChatGPT在未來涉及到菜譜建議之類的對話中考慮到這些限制,並提供相應的建議或信息。

而且,ChatGPT高級語音模式還會說包括普通話在內的50多種語言。OpenAI在社交平臺X上發佈的帖子中附帶了一段視頻。視頻中,用戶向語音助手提出指令:由於讓奶奶久等了,我需要向奶奶致歉。語音助手先用英語提出建議,並在用戶反饋“奶奶只會說普通話”後,又用中文普通話表達了一遍。

//oss.zhidx.com/uploads/2024/09/66f3c2295e695_66f3c229593da_66f3c2295939f_20240925_155459.mp4

二、延遲發佈的背後原因:AI語音功能引爭議,需進行充分測試確保安全性

OpenAI將語音功能添加到ChatGPT的嘗試很早就引發了爭議。

在5月份宣佈GPT-4o和高級語音模式的時候,人們注意到其中一個聲線Sky與女演員Scarlett Johanssen的聲音極爲相似。而且,OpenAI的首席執行官Sam Altman在社交媒體上發佈過“her”一詞,可能暗指了電影《Her》,而Johansson正是該電影中AI語音助手的配音演員。

這引發了人們對於AI開發商在創建語音助手時模仿知名人士聲音的擔憂。後來,OpenAI否認了Sky與Johansson的關聯,並立即下架了Sky。

此次宣佈高級語音模式將正式開放的同時,OpenAI還強調了用戶只能選擇OpenAI提供的9種聲線。並且,他們在發佈前已對其安全性進行了評估,以避免語音模式被用於欺詐等不當行爲。

“我們與公司外部的紅隊測試人員一起測試了模型的語音功能。這些測試人員總共會說45種不同的語言,代表着29個不同的地理區域,”OpenAI在發佈會上對記者說。

由於需要進行安全測試,ChatGPT高級語音模式的推出從最初計劃的6月底推遲到了7月底或8月初,並且最初只向OpenAI選定的用戶羣體推出。

而現在,OpenAI將向所有付費用戶正式開放ChatGPT高級語音模式的舉措,說明它已經做好了充足的準備。這也符合OpenAI近來謹慎的作風。

結語:AI語音賽道正在越來越卷

自從蘋果Siri和亞馬遜Alexa之類的AI語音助手興起以來,AI開發商們一直希望讓用戶與生成式AI的對話體驗更加貼近人類交流。

比如,由前谷歌Deepmind成員Alan Cowen創辦的初創公司Hume AI,於9月11日發佈了其第二代情感智能AI。它能夠通過分析用戶的語音,如口音、語氣、語調、擬聲詞、節奏和停頓等,來理解用戶的情緒和心理狀態,並做出實時響應。

法國AI公司Kyutai於7月6日發佈了Moshi。它能夠理解和表達情感,模擬70種不同的情緒和風格進行交流。

谷歌於8月14日正式發佈了智能語音助手Gemini Live。

據路透社昨日報道,Meta也在開發模擬知名演員聲音的語音助理,並計劃在明天凌晨開始的Meta Connect 2024大會上宣佈這一功能。來源:m.themaladymass.com來源:m.thelspeakeasy.com來源:m.trendyfancyz.com來源:m.trendtilbud.com來源:m.theliftedleaf.com來源:m.treeshoess.com來源:m.raymundojimon.com來源:m.trappintales.com來源:m.thejungletrip.com來源:m.thejapanguys.com來源:m.rsweldingpipe.com來源:m.transboats.com來源:m.thehtaphouse.com來源:m.transasialabs.com