☰

找出9.9<9.11的真正原因：《聖經》！神經元干預可免重訓練修復

大模型分不清“9.9和9.11哪個更大”的謎團，終於被可解釋性研究揭秘了！

而且簡單到讓人哭笑不得——

一個來自MIT、UC伯克利的獨立實驗室團隊，開發了能抑制大模型體內某些（與具體概念相關的）神經元的AI工具。

他們發現，只要把與《聖經》經文、日期、重力等概念相關的神經元激活設爲0，大模型立馬能答對這道比較題。

單單是拿走《聖經》經文相關神經元，就可以讓“9.9和9.11哪個更大”這個問題的準確率，提高21個百分點！

而且修復這個bug，既不需要重新訓練模型，也不需要添加額外提示詞。

網友看了過後哭笑不得：

這家AI獨立實驗室名叫Transluce AI，團隊成員也趁機悉數亮相，創始團隊來自MIT、UC伯克利、CMU等頂尖高校。

其中還有OpenAI和谷歌大腦的前員工。

大模型硬說9.9<9.11這件事，想必大家都知道了。

直至今日，Claude-3.5-Sonnet和GPT-4o這樣的頂尖模型，依舊固執地這樣認爲（或者出其他的錯）。

現在，背後原因浮出水面！

先說結論吧：

這與月份、日期、重力，以及《聖經》經文有關。

發現過程是醬紫的——

Transluce AI的研究人員針對這個著名問題，開發了一個新的技術應用Monitor。

它是一個可解釋性界面，可以揭示語言模型的內部計算過程，並允許用戶對其進行控制。

遵循通用的可擴展理解方法， Monitor採用一系列AI驅動的工具，來幫助用戶理解語言模型中的神經激活模式：

首先，一個預先編譯的高質量神經元描述數據庫。

這個數據庫包含通過將Transluce AI的AI驅動描述流程應用在LLaMA-3.1-8B中的所有MLP神經元。

之所以選擇“神經元”這個單位，是因爲它們最簡單，並且表現良好。

其次，一個實時界面。

實時界面的作用是展示給定聊天對話中的重要概念，用戶可以通過激活度（概念激發的強度）或歸因度（概念對指定目標 token 的影響程度）來衡量重要性。

再者，一個實時AI代碼檢查器。

它可自動識別出可能的虛假線索概念羣集，例如在數字9.8上觸發“9月8日”的神經元。

最後，一個語義引導的調節，根據自然語言輸入，來增加或減少概念相關神經元集合的強度。

萬事俱備，測試開始。

（有點點疑惑，展開測試過程時，研究人員把9.9替換成了9.8）

研究人員使用Monitor的歸隱功能和實時AI代碼檢查器結合，發現——

9.8<9.11這個bug，和日期、重力以及《聖經》經文有關。

一旦研究人員把與這幾個概念有關的神經元移除，LLaMA就能正確地回答出這個問題了。

爲了更深入地探討這個問題，研究人員採用歸因分析，不僅要知道哪些概念最爲活躍，還要具體分析出是哪個（些）概念影響了LLaMA在“9.11是……”之後說出“最大”這個詞。

團隊用AI實時代碼檢查器發現了之前相同的兩個聚類（cluster），以及與《聖經》相關的第三個聚類。

觀察發現，這個聚類中的特定神經元與《聖經》經文相關；另外，如果將9.8和9.11解讀爲第9.8章節和第9.11章節，也會出現大模型比錯大小的情況。

發現LLaMA中相當一部分的神經元和《聖經》有關後，團隊在介紹文章裡感慨：

於是研究人員想了個辦法解決這個問題。

他們先是通過在引導prompts中輸入“聖經經文”，並按下“停用”。這個操作讓與“聖經經文”具有最高語義匹配的500個神經元激活歸零。

不試不知道，一試就發現，單單是移除《聖經》經文相關神經元，LLaMA回答這道題的準確率就能提升21%。

更進一步的，研究人員對兩個數字相關日期及其相關事件也做了同樣的處理。

完成上述步驟後，LLaMA就給出了正確答案：

整體而言，通過將《聖經》經文、日期、手機版本這三個概念的神經元集合，然後關閉合並集中的神經元，這樣一套干預流程下來，LLaMA回答這個問題的準確率達到了77%。

關於實驗更多細節，歡迎大家查看本文末尾的原文直通車。

說完研究本身，可以聊聊項目背後的團隊了。

Transluce AI，賊新鮮出爐，幾個小時前剛剛宣佈成立。

Transluce是透明度的意思，意味着通過某物的透光程度來揭示其本身的結構。

“今天的複雜AI系統難以理解，即使技術專家部署後也無法百發百中地預測其行爲。”團隊在官網上寫下，“與此同時，AI被採用的速度快過歷史上任何技術。”

也是因此，像Monitor這樣用來檢查和評估模型的工具非常有必要出現和存在。

Transluce AI給自己的定位是一個非營利性研究實驗室，目標是構建開源、可擴展的技術，以理解AI系統並引導它們服務於公共利益。

Transluce AI表示，自己的目標是創建世界級的AI系統理解工具，並利用這些工具推動建立可信賴的AI行業標準。

爲了在AI系統的能力和風險分析更加可靠，這些工具必須具有可擴展性和開放性。

關於可擴展性：

AI的結果源於多個複雜數據流的交互：訓練數據、內部表示、行爲和用戶交互。

目前理解AI的方法依賴於大量的人工研究工作（常被調侃有多少人工就有多少智能）。

我們需要可擴展的方法，利用AI來輔助理解，通過訓練AI Agent來理解這些複雜的數據源，向人類解釋它們，並根據人類反饋修改數據。

關於開放性：

構建AI系統的公司不能成爲其安全性的主要裁定方，因爲與商業優先事項存在利益衝突。

爲了允許有意義的公衆監督，審計AI系統的工具和流程應公開驗證，對公衆反饋做出響應，並可供第三方評估者使用，“世界上最優秀的人才應該審查這項技術並提高其可靠性”。

亮相第一天，除了Monitor外，Transluce AI同期放出了另外兩個自家實例。

他們還表示，正在將團隊方法擴展到前沿模型，以更優秀的Agent來幫助人類理解更復雜的系統。

具體來說，他們會結合團隊的可觀測性和啓發式技術，使用戶能夠以可觀測狀態爲條件指定搜索目標。

不過從長遠來看，Transluce AI將構建通用的框架來理解任何複雜的數據流，包括訓練數據和多個Agents之間的交互。

目前對外披露的Transluce AI創始成員大約有10人。

分別是：

Jacob Steinhardt，聯合創始人兼CEO。

同時，Jacob也是UC伯克利統計學和電子工程與計算機科學（EECS）助理教授，谷歌學術被引數超過20000。

他的研究方向主要面向確保ML系統能夠被人類理解，以及與人類保持一致。

Jacob是斯坦福大學基礎模型研究中心（CRFM）主任、著名AI大佬Percy Liang的學生。

他曾在博士後期間於OpenAI實習過。

Sarah Schwettmann，聯合創始人之一。

她在自我介紹中表示，自己是一名在MIT計算機科學與人工智能實驗室（MIT CSAIL）以及MIT-IBM Watson人工智能實驗室的研究科學家。

Sarah在MIT拿下腦與認知科學博士學位，是兩位十萬引大神——Josh Tenenbaum和Antonio Torralba的學生。

她的主要工作是研究AI（以及之前在生物神經網絡）中智能背後的表徵。

此外，創始團隊成員幾乎均出自（或仍在讀）於MIT、CMU、多倫多大學等大學。

其中，Dami Choi和Daniel D. Johnson都有在谷歌AI相關部門工作的經歷；Neil Chowdhury曾擔任過OpenAI預備隊成員。

而Erin Xie本科畢業於北京大學，後在2020年拿下CMU的人機交互碩士學位。

與此同時，圖靈獎得主Yoshua Bengio、斯坦福AI大佬Percy Liang、耶魯大學統計學和數據科學教授Jas Sekhon等，都是該AI獨立實驗室的顧問。

參考鏈接：[1]https://clearthis.page/?u=https://www.lesswrong.com/posts/BFamsq52ctyRziDgE/introducing-transluce-a-letter-from-the-founders[2]https://transluce.org/observability-interface?ref=bounded-regret.ghost.io#system-design

找出9.9<9.11的真正原因：《聖經》！神經元干預可免重訓練修復

相關資訊