ChatGPT會說話了

參考消息網9月27日報道 據美國《華盛頓郵報》網站9月25日報道,美國開放人工智能研究中心(OpenAI)宣佈,它將賦予其聊天生成預訓練轉換器(ChatGPT)利用語音和音頻與用戶對話的能力,這意味着這家規模較小的人工智能公司,將在打造更智能語音助手的競爭中,與技術巨頭谷歌、蘋果和亞馬遜直接較量。

聊天機器人ChatGPT可以用五個角色中的一個來回答用戶提問,語氣聽起來比“亞歷克薩”(Alexa)和Siri等熱門語音助手更像談話。開放人工智能研究中心說,添加語音是一種關鍵方式,旨在讓更多人與ChatGPT互動和使用ChatGPT。

OpenAI的宣佈凸顯出,先前憑藉Alexa在語音助手方面居於領先地位的亞馬遜,最近幾個月在推出面向大衆的新人工智能工具方面已經落後。25日,在OpenAI作出宣佈的同一天,亞馬遜稱其已簽署一項協議,將對另一家人工智能初創企業Anthropic公司進行高達40億美元的投資。這是自微軟公司今年初簽署里程碑式的對OpenAI的投資協議以來,人工智能領域規模最大的一份協議,反映了科技巨頭正押注於熱門的人工智能初創企業。

在此之前,谷歌、亞馬遜和OpenAI等公司上週推出了若干款人工智能產品,這一瘋狂速度表明各家公司爭先恐後地想要擊敗競爭對手。這些公司正在嘗試各種方法來讓人們使用它們的機器人併爲機器人付費,把這些機器人程序置於現有音箱中是它們正在探索的關鍵途徑之一。上週,亞馬遜宣佈將爲它的Alexa家用音箱增加一個聊天機器人“對話”功能。今年夏天,谷歌曾對員工說,它正在考慮將“巴德”(Bard)聊天機器人背後的技術應用於它自己的語音助手。

先前,人們可以通過在移動應用程序上大聲說出問題來向ChatGPT提問,但這款機器人會以文字作答。OpenAI還說,人們現在可以在提問時上傳圖片,比如展示冰箱裡食材的一張照片,並請ChatGPT提出食譜建議。添加語音和圖像能力也使ChatGPT進一步朝着成爲真正的“多模態模型”邁進——成爲能“看”、“聽”世界、在接收文字之外還能通過語音和圖像作出迴應的聊天機器人。人工智能研究人員和分析人士說,多模態模型是該行業競爭的下一階段,各公司正在競相打造能力最強的模型。

聊天機器人背後的“大語言模型”技術提供了這樣一種可能性:語音助手可以變得更有能力進行更長時間的自然對話並回答更復雜的問題。OpenAI的消費產品副總裁鄧修平說,語音角色並未有意模仿任何特定的人。

在演示中,他展示了這個機器人如何理解閒聊和開放式的語音問題。他說,新功能使對話變得更容易、更流暢,而不需要考慮提問時如何措辭。鄧修平說:“有了這個功能,你就可以隨便說話。我的孩子們現在要求ChatGPT給他們講睡前故事。”