找出9.9<9.11的真正原因:《聖經》!神經元干預可免重訓練修復

大模型分不清“9.9和9.11哪個更大”的謎團,終於被可解釋性研究揭秘了!

而且簡單到讓人哭笑不得——

一個來自MIT、UC伯克利的獨立實驗室團隊,開發了能抑制大模型體內某些(與具體概念相關的)神經元的AI工具。

他們發現,只要把與《聖經》經文、日期、重力等概念相關的神經元激活設爲0,大模型立馬能答對這道比較題。

單單是拿走《聖經》經文相關神經元,就可以讓“9.9和9.11哪個更大”這個問題的準確率,提高21個百分點!

而且修復這個bug,既不需要重新訓練模型,也不需要添加額外提示詞。

網友看了過後哭笑不得:

這家AI獨立實驗室名叫Transluce AI,團隊成員也趁機悉數亮相,創始團隊來自MIT、UC伯克利、CMU等頂尖高校。

其中還有OpenAI和谷歌大腦的前員工。

大模型硬說9.9<9.11這件事,想必大家都知道了。

直至今日,Claude-3.5-Sonnet和GPT-4o這樣的頂尖模型,依舊固執地這樣認爲(或者出其他的錯)。

現在,背後原因浮出水面!

先說結論吧:

這與月份、日期、重力,以及《聖經》經文有關。

發現過程是醬紫的——

Transluce AI的研究人員針對這個著名問題,開發了一個新的技術應用Monitor。

它是一個可解釋性界面,可以揭示語言模型的內部計算過程,並允許用戶對其進行控制。

遵循通用的可擴展理解方法, Monitor採用一系列AI驅動的工具,來幫助用戶理解語言模型中的神經激活模式:

首先,一個預先編譯的高質量神經元描述數據庫。

這個數據庫包含通過將Transluce AI的AI驅動描述流程應用在LLaMA-3.1-8B中的所有MLP神經元。

之所以選擇“神經元”這個單位,是因爲它們最簡單,並且表現良好。

其次,一個實時界面。

實時界面的作用是展示給定聊天對話中的重要概念,用戶可以通過激活度(概念激發的強度)或歸因度(概念對指定目標 token 的影響程度)來衡量重要性。

再者,一個實時AI代碼檢查器。

它可自動識別出可能的虛假線索概念羣集,例如在數字9.8上觸發“9月8日”的神經元。

最後,一個語義引導的調節,根據自然語言輸入,來增加或減少概念相關神經元集合的強度。

萬事俱備,測試開始。

(有點點疑惑,展開測試過程時,研究人員把9.9替換成了9.8)

研究人員使用Monitor的歸隱功能和實時AI代碼檢查器結合,發現——

9.8<9.11這個bug,和日期、重力以及《聖經》經文有關。

一旦研究人員把與這幾個概念有關的神經元移除,LLaMA就能正確地回答出這個問題了。

爲了更深入地探討這個問題,研究人員採用歸因分析,不僅要知道哪些概念最爲活躍,還要具體分析出是哪個(些)概念影響了LLaMA在“9.11是……”之後說出“最大”這個詞。

團隊用AI實時代碼檢查器發現了之前相同的兩個聚類(cluster),以及與《聖經》相關的第三個聚類。

觀察發現,這個聚類中的特定神經元與《聖經》經文相關;另外,如果將9.8和9.11解讀爲第9.8章節和第9.11章節,也會出現大模型比錯大小的情況。

發現LLaMA中相當一部分的神經元和《聖經》有關後,團隊在介紹文章裡感慨:

於是研究人員想了個辦法解決這個問題。

他們先是通過在引導prompts中輸入“聖經經文”,並按下“停用”。這個操作讓與“聖經經文”具有最高語義匹配的500個神經元激活歸零。

不試不知道,一試就發現,單單是移除《聖經》經文相關神經元,LLaMA回答這道題的準確率就能提升21%。

更進一步的,研究人員對兩個數字相關日期及其相關事件也做了同樣的處理。

完成上述步驟後,LLaMA就給出了正確答案:

整體而言,通過將《聖經》經文、日期、手機版本這三個概念的神經元集合,然後關閉合並集中的神經元,這樣一套干預流程下來,LLaMA回答這個問題的準確率達到了77%。

關於實驗更多細節,歡迎大家查看本文末尾的原文直通車。

說完研究本身,可以聊聊項目背後的團隊了。

Transluce AI,賊新鮮出爐,幾個小時前剛剛宣佈成立。

Transluce是透明度的意思,意味着通過某物的透光程度來揭示其本身的結構。

“今天的複雜AI系統難以理解,即使技術專家部署後也無法百發百中地預測其行爲。”團隊在官網上寫下,“與此同時,AI被採用的速度快過歷史上任何技術。”

也是因此,像Monitor這樣用來檢查和評估模型的工具非常有必要出現和存在。

Transluce AI給自己的定位是一個非營利性研究實驗室,目標是構建開源、可擴展的技術,以理解AI系統並引導它們服務於公共利益。

Transluce AI表示,自己的目標是創建世界級的AI系統理解工具,並利用這些工具推動建立可信賴的AI行業標準。

爲了在AI系統的能力和風險分析更加可靠,這些工具必須具有可擴展性和開放性。

關於可擴展性:

AI的結果源於多個複雜數據流的交互:訓練數據、內部表示、行爲和用戶交互。

目前理解AI的方法依賴於大量的人工研究工作(常被調侃有多少人工就有多少智能)。

我們需要可擴展的方法,利用AI來輔助理解,通過訓練AI Agent來理解這些複雜的數據源,向人類解釋它們,並根據人類反饋修改數據。

關於開放性:

構建AI系統的公司不能成爲其安全性的主要裁定方,因爲與商業優先事項存在利益衝突。

爲了允許有意義的公衆監督,審計AI系統的工具和流程應公開驗證,對公衆反饋做出響應,並可供第三方評估者使用,“世界上最優秀的人才應該審查這項技術並提高其可靠性”。

亮相第一天,除了Monitor外,Transluce AI同期放出了另外兩個自家實例。

他們還表示,正在將團隊方法擴展到前沿模型,以更優秀的Agent來幫助人類理解更復雜的系統。

具體來說,他們會結合團隊的可觀測性和啓發式技術,使用戶能夠以可觀測狀態爲條件指定搜索目標。

不過從長遠來看,Transluce AI將構建通用的框架來理解任何複雜的數據流,包括訓練數據和多個Agents之間的交互。

目前對外披露的Transluce AI創始成員大約有10人。

分別是:

Jacob Steinhardt,聯合創始人兼CEO。

同時,Jacob也是UC伯克利統計學和電子工程與計算機科學(EECS)助理教授,谷歌學術被引數超過20000。

他的研究方向主要面向確保ML系統能夠被人類理解,以及與人類保持一致。

Jacob是斯坦福大學基礎模型研究中心(CRFM)主任、著名AI大佬Percy Liang的學生。

他曾在博士後期間於OpenAI實習過。

Sarah Schwettmann,聯合創始人之一。

她在自我介紹中表示,自己是一名在MIT計算機科學與人工智能實驗室(MIT CSAIL)以及MIT-IBM Watson人工智能實驗室的研究科學家。

Sarah在MIT拿下腦與認知科學博士學位,是兩位十萬引大神——Josh Tenenbaum和Antonio Torralba的學生。

她的主要工作是研究AI(以及之前在生物神經網絡)中智能背後的表徵。

此外,創始團隊成員幾乎均出自(或仍在讀)於MIT、CMU、多倫多大學等大學。

其中,Dami Choi和Daniel D. Johnson都有在谷歌AI相關部門工作的經歷;Neil Chowdhury曾擔任過OpenAI預備隊成員。

而Erin Xie本科畢業於北京大學,後在2020年拿下CMU的人機交互碩士學位。

與此同時,圖靈獎得主Yoshua Bengio、斯坦福AI大佬Percy Liang、耶魯大學統計學和數據科學教授Jas Sekhon等,都是該AI獨立實驗室的顧問。

參考鏈接:[1]https://clearthis.page/?u=https://www.lesswrong.com/posts/BFamsq52ctyRziDgE/introducing-transluce-a-letter-from-the-founders[2]https://transluce.org/observability-interface?ref=bounded-regret.ghost.io#system-design