GPT-4的圖靈測試結果出爐!

大數據文摘受權轉載自夕小瑤科技說

作者:智商掉了一地、ZenMoore

圖靈測試,作爲衡量機器思維能力的方式,自 1950 年由圖靈設計以來一直備受爭議。這個模仿遊戲的設定包括人類和人工智能(AI)參與者,AI 試圖通過純文本界面讓詢問者相信他們是人類。

自那時以來,圖靈測試的引發了激烈爭議,人們討論它究竟是在衡量什麼,以及哪種系統有可能通過這一測試。儘管如今大型語言模型(LLM)似乎很適合進行圖靈測試,但它是否能夠通過測試卻沒有得到明確的答案。

在本文中,作者通過在線公開圖靈測試將 GPT-4 和其他智能體與人類進行了比較,來對這個問題進行實證研究,實驗表明:

在 41% 的遊戲中,表現最佳的 GPT-4 提示通過了測試,超過了 ELIZA 和 GPT-3.5 基準,但未達到和人類參與者相當的水準。

參與者的決策主要基於語言風格和社會情感特徵,這支持了智能體不足以通過圖靈測試的觀點。

參與者的人口統計學特徵,包括教育和對 LLM 的熟悉程度,並不能被用來預測檢測率,這表明即使是深入瞭解系統並經常與其互動的人也可能容易受到欺騙。

儘管圖靈測試存在一些侷限性,但我們仍然可以將其視爲評估自然語言交互和欺騙的相關標準。此外,鑑於具備冒充人類能力的 AI 模型可能對社會產生廣泛影響,作者還分析了不同策略以及判斷模型是否與人類相似的標準的有效性。

論文題目:Does GPT-4 Pass the Turing Test?

論文鏈接:https://arxiv.org/abs/2310.20216

圖靈測試是否有意義

圖靈認爲遊戲的開放性質(審問者可以詢問任何事情,從浪漫愛情到數學)構成了一項廣泛且有挑戰性的智力測試。大型語言模型(LLM)能生成流暢的自然文本,在各種基於語言的任務上與人類幾乎持平,似乎非常適合圖靈遊戲。

▲圖1 圖靈測試實驗的聊天界面,人類審問者(綠色)與 GPT-4 之間的示例對話

但在激烈討論下,圖靈測試似乎並不能確定機器是否真正具有智能性,它最多隻能提供一種概率性的支持或反對證據,因爲仍存在着許多限制。但儘管如此,圖靈測試仍然具有重要意義。

首先,它幫助我們評估機器是否能夠欺騙人類,讓人誤以爲它們是真正的人。這個能力對社會有廣泛的影響,包括自動化客戶服務、虛假信息傳播、AI 模型的欺騙,以及對與真正人類互動的信任問題。

其次,圖靈測試爲研究人類相似性提供了一個框架。不僅僅是評估機器,還探討了人類參與者的文化、倫理和心理假設。通過分析參與者的策略和理由,我們可以更好地理解人們認爲哪些特質構成了人類,以及哪些特質難以模仿。

作者採用了圖靈測試的兩人實現方式,其中一個審問者向單個參與者提問,來決定他們是人類還是 AI。這與圖靈的原始三人公式有所不同,但避免了需要每場測評有多個人類在線參與的需要。

作者創建了 25 個 LLM 參與者進行實驗。這些參與者通過 OpenAI API 來回複用戶的問題。每個參與者由模型(GPT-3.5 或 GPT-4)、溫度參數(0.2、0.5 或 1.0)和提示區分。提示告訴參與者在互動中應該怎麼做,包括回覆的方式。

▲圖2 示例提示,Juliet,用於爲 LLM 提供上下文背景和如何回覆用戶提示的指令

界面

聊天界面被設計成類似於傳統的消息應用程序。如圖 3 所示,審問者的消息顯示在對話框的右側綠色區域。在對話框的底部,包括審問者的最終判定、置信度和判定原因,以及參與者的真實身份。

▲圖3 四個遊戲對話的示例

流程

在研究中,人類玩家進入等待室,被隨機分配到兩種不同類型的遊戲,一種是與真正的人類玩,另一種是與 AI 玩。爲了避免等待時間太長,AI 遊戲的等待時間設置成與前面五場人類比賽的平均等待時間相同。如果在規定時間內找不到人類比賽的話,玩家就會被匹配到與 AI 對戰。

在人類比賽中,兩名玩家被分爲審問者和參與者的角色:

參與者:是要說服審問者他們是真正的人類。

審問者:與 AI 模型比賽的玩家總是擔任審問者的角色。

AI 模型的選擇通過一種探索或開發策略來確定,然後對於每個模型,從分佈中抽取樣本:

其中 是模型的數量, 和 分別是模型遊戲歷史中獲勝和損失的數量,由審問者對每個判定的置信度加權。

實驗結果成功率

成功率(SR)定義:審問者決定參與者是人類的比賽的比例(即參與者成功)。

▲表1 審問者判定參與者的成功率(SR)和比賽數量(n)

如圖 4 所示,人類參與者表現最好,SR 爲 63%,表現最佳的 GPT-4 提示(Sierra)爲 41%。而且,不同提示的性能存在較大的差異。

▲圖4 一組參與者的圖靈測試成功率(SR)

如圖 5 所示,在與 AI 的遊戲中,審問者的置信度相當準確,但在與真實人類參與者的遊戲中,置信度與準確性之間沒有明顯關聯。需要注意的是,由於本文的採樣算法傾向於選擇表現更好的模型,因此具有較少測評數據的模型可能會產生較低的 SR ,所以這些結果可能不太靠譜。

▲圖5 審問者的置信度與準確性以及參與者類型之間的關係

假設模型在審問者的第一場測評中會享有優勢,因爲審問者還沒有機會熟悉遊戲。如圖 6 所示,性能最佳的參與者在第一場測評中的表現與他們的整體 SR 類似。

▲圖6 審問者第一場比賽的成功率(SR)

審問者的人口統計特徵

作者研究了審問者的能力,看他們是否能受到一些已知人機互動統計因素的影響(如年齡、性別、教育水平以及與聊天機器人的互動頻率,以及對 LLM 的瞭解程度)。然而,如圖 7 的研究結果表明,這些因素似乎對審問者在辨別他們是在與真人還是 AI 對話方面的準確性沒有明顯影響,同時,沒有發現任務經驗會提高參與者的表現。

▲圖7 審問者的統計特徵

策略

作者對 300 場測評中審問者採用的策略進行了分類。如圖 8 顯示,最常見的策略類型是閒聊,詢問參與者當天在做什麼以及他們生活中的其他個人細節。其他常見策略包括知識推理和上下文意識。

▲圖8 審問者用來審問參與者的前 20 種策略類型

此外,爲了分析不同策略的有效性,作者探索了採用策略的平均準確性,同時還探索了詢問審問者的策略是否隨時間而改變。如圖 9 所示,審問者在最早的比賽中傾向於使用社會情感策略和上下文意識問題(關於天氣和時間),而更有經驗的審問者傾向於考察參與者的知識和觀點。

▲圖9 審問者採用的策略的平均準確性

原因

參與者提供了決策的原因,分爲 6 類:語言風格、社交與情感、知識與內容、上下文感知、元(模型控制範圍之外的遊戲方面)和無信息(模糊或無關的原因)。

如圖 10 所示,最常見的原因是語言方面(如模型過於不正式、過度使用聽起來不自然的附加語、使用重複的句子結構)和社交情感因素(如模型缺乏個性或產生不自然的回覆,而人類不會)。

▲圖10 審問者認定 AI 參與者實際上是 AI 的前 20 個原因

1. GPT-4 是否通過了圖靈測試?

圖靈曾在 70 年前說過:

通過上述研究發現,某些 GPT-4 參與者比圖靈預計地晚 20 年順利通過圖靈測試(審問者有時無法準確辨認它們是 AI)。但我們還需要考慮是否 30% 的誤識率足夠好,或者是否該有更嚴格的標準才能真正通過圖靈測試。更高的誤識率可能表明審問者在模型和人類之間的區別上存在困難。然而,這也可能出現隨機猜測的情況(審問者無法提供可靠的鑑別)。

然而,要求 AI 參與者在模仿遊戲中幾乎像人類一樣成功(審問者很難分辨他們是 AI),就意味着 AI 需要表現得幾乎和人類一樣好,從而騙過審問者。這可能對 AI 不太公平,因爲必須欺騙,而人類可以坦率地回答問題就行。

最終,要評估圖靈測試的成功,需要確定 AI 的表現是否明顯優於人類基線。在此研究中,所有 AI 參與者都沒有滿足這個標準,因此沒有找到 GPT-4 通過圖靈測試的證據。即使某些模型在某些情況下表現出色,這個研究的設計和分析限制了得出結論的強度,而支持某個系統通過圖靈測試的強有力證據需要更多的研究和控制實驗。

2. GPT-4 能通過圖靈測試嗎?

如圖 4 所示,根據所給的提示不同,AI 的表現有很大變化。我們有理由相信可能有更好的提示,使得 AI 在這測試中表現更好,也許能夠完全達到通過圖靈測試的標準。

此外,有些審問者認爲參與者是 AI 的理由(如說話太不正式、句子結構太重複,或者回避一些敏感話題)相對容易解決,但設計出有效的提示具有挑戰性。根據經驗,嘗試解決一個問題通常會引入新的方法,讓系統表現得不像人類。

最好的提示只能達到大約 40% 的成功率,這個數字與之前的研究結果相似,這可能代表了目前大型語言模型的性能水平。

3. 審問者的人口統計特徵

雖然研究收集了一些審問者的人口統計數據,但這些因素似乎對審問者在區分 LLM 和人類方面的準確性沒有顯著影響。這可能表明,與 LLM 互動的經驗並不能幫助審問者更好地識別 LLM 和人類之間的區別。

此外,結果也可能受到選擇偏見的影響,因爲通過作者的社交媒體帖子招募的樣本可能過多地代表了20-30歲、男性、研究生學歷且對LLM感興趣的人。

4. 策略

審問者嘗試了多種策略來辨別 AI 模型,突顯了圖靈測試作爲一種互動評估的靈活性。

最有效的策略之一是使用非英語語言進行對話。其他有效策略包括利用模型缺乏與實時世界連接的特性,比如詢問時間或當前事件。

一些審問者還採用了更直接的方法,直接詢問參與者是否是 AI。這種策略相當有效,模型通常會過於努力來說服審問者他們是人類,而不是以一種更隨意的方式回答,這可能提醒審問者去懷疑參與者可能是 AI。

原因

審問者正確判斷 AI 的原因最常與語言風格有關。儘管模型接受了大量的人類文本訓練,但在適應上下文的風格中仍然存在挑戰。

第二常見的原因是社交情感,特別是模型的回覆是通用或不自然的評論。LLM 學會了生成那些在某種程度上看起來非常可能正確或無爭議的句子,並對它們進行微調,以避免引發爭議或爭論。這通常會產生適應性廣泛的回覆,但缺乏個人特徵。

審問者還關注了社交和情感因素(如幽默感或在遊戲中不配合)。如圖 11 所示,人類在辨別參與者是否是人類的理由上,不論是人類還是 AI 參與者之間,都有相似分佈,表明模型在許多情況下都能夠模仿這些特質。

▲圖11 審問者判斷參與者是人類的前 20 種理由,根據真實參與者類型細分

上述分佈提出了兩種可能性:

分佈的相似性表明 AI 模型已經具有足夠的能力,使得它們可以更好地模仿社交情感線索和流暢的語言風格,讓審問者更容易將其視爲人類。這意味着模型已經變得足夠聰明,在模仿人類在這方面變得更加容易。

這些線索在一般情況下對於區分 AI 並不重要,所以對於那些尚未掌握這些線索的模型來說,該測試並非很好地判定 AI。也就是說,這些特定的線索可能在模仿人類的情境中並不總是表現得特別突出。

在這項研究中,作者深入探討了人類和 AI 之間的複雜互動。儘管圖靈測試並不是完美的智能度量標準,但它爲我們提供了深刻理解智能體社交互動的框架。實驗結果表明,基於規則的 AI 系統(如 ELIZA),在某些情況下的表現竟也出乎意料的成功。與此同時,人類參與者被正確判斷爲人類的概率僅爲 63%。

此外,AI 系統仍然面臨着語言風格和社交情感因素等挑戰,這些挑戰可能比傳統人工智能判定概念更加重要,因爲會直接涉及到 AI 模型在模仿人類社交互動中的能力。

此外,AI 系統仍然面臨一系列挑戰,特別是在處理語言風格和社交情感等因素時,這些挑戰可能比傳統的智能性概念更爲重要,因爲它們直接關係到 AI 模型在模仿人類社交互動方面的能力。

這也凸顯了一個潛在的風險,即在人們未能意識到的情況下,AI 欺騙可能會發生。如果 AI 模型能夠成功地模仿人類的語言和情感,它們有可能會被誤認爲真正的人類,這可能會導致誤導信息、虛假信息的傳播,甚至引發社會和倫理問題。

最後,我們必須承認這項實驗還存在許多侷限性,例如參與者的樣本不夠具有代表性、缺乏激勵機制。因此,雖然本文提供了一些見解,但仍需要更多充分的研究,以更好地理解智能體和社交互動的本質。不僅僅是圖靈測試,我們需要尋求更多多樣化的智能性度量標準,以更全面地瞭解和評估 AI 系統的能力。這也許能幫助我們更好地瞭解未來 AI 技術,確保其在各個領域的應用都能夠有益於人類社會。

租!GPU雲資源

新上線一批A100/A800

運營商機房,服務有保障

掃碼瞭解詳情☝