☰

AI信任危機之後，揭秘預訓練如何塑造機器的「可信靈魂」

AIxiv專欄是機器之心發佈學術、技術內容的欄目。過去數年，機器之心AIxiv專欄接收報道了2000多篇內容，覆蓋全球各大高校與企業的頂級實驗室，有效促進了學術交流與傳播。如果您有優秀的工作想要分享，歡迎投稿或者聯繫報道。投稿郵箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com。

圖表 1:大模型的通用訓練流程 [1]

在人工智能的前沿領域，大語言模型（Large Language Models，LLMs）由於其強大的能力正吸引着全球研究者的目光。在 LLMs 的研發流程中，預訓練階段佔據着舉足輕重的地位，它不僅消耗了大量的計算資源，還蘊含着許多尚未揭示的秘密。根據 OpenAI 的研究，在 InstructGPT 的開發過程中，預訓練階段近乎耗盡了全部的算力和數據資源，佔比高達 98% [2]。

圖表 2: 帶着笑臉的修格斯 [3]

預訓練模型宛如一頭未經雕琢卻力量強大的猛獸。在經歷了漫長的預訓練階段後，模型已經建模了大量而又豐富的世界知識。藉助高質量的對話數據進行有監督微調（Supervised Fine-Tuning，SFT），我們可以使這個「野獸」理解人類的語言、適應社會的需要；而後通過基於人類反饋的強化學習（Reinforcement Learning with Human Feedback，RLHF）的進一步優化，使其更精準地契合用戶的個性化訴求，在價值觀上與人類「對齊」，從而能更好地服務於社會。諸如 SFT 和 RLHF 等相關對齊階段，可以視爲對這頭猛獸的馴化過程。但我們的目標不止於此，更重要的是揭示賦予 LLMs 獨特能力的根本過程 —— 預訓練（The Pre-training Period）。預訓練階段猶如一個蘊藏無限可能的寶盒，亟待科研人員深入挖掘其中更爲深遠的價值及運作機制。

當前，多數開源的 LLMs 僅公佈模型權重與性能指標，而深入理解模型行爲則需要更多詳盡信息。LLM360 [4] 與 OLMo [5] 的全面開源，向研究者和社區提供了包括訓練數據、超參配置、預訓練過程中的多個模型權重切片以及性能評測在內的全方位深度解析，大大增強了 LLMs 訓練過程的透明度，助力我們洞悉其運作機理。

人類到底能否信任 LLMs？面對這一核心問題，上海 AI Lab、中國人民大學、中國科學院大學等機構從預訓練階段入手，試圖洞察 LLMs 這個龐然大物。團隊致力於剖析 LLMs 如何在預訓練階段內構建可信的相關概念（Trustworthiness），並試圖探索預訓練階段是否具備引導和提升最終 LLMs 可信能力的潛力。

論文標題：Towards Tracing Trustworthiness Dynamics: Revisiting Pre-training Period of Large Language Models

論文鏈接：https://arxiv.org/abs/2402.19465

項目主頁：https://github.com/ChnQ/TracingLLM

這項工作首次給出瞭如下觀察：

發現LLMs 在預訓練的早期階段就建立了有關可信概念的線性表徵，能夠區分可信與不可信的輸入；

發現預訓練過程中，LLMs 表現出對於可信概念類似於「信息瓶頸」先擬合、再壓縮的學習過程；

基於表徵干預技術，初步驗證了 LLMs 在預訓練過程中的切片可以幫助提升最終 LLMs 的可信能力。

圖表 3: 文章概覽圖

在本研究中，團隊使用了 LLM360 [4] 開源項目所提供的豐富 LLM 預訓練資源。該項目以 1.3 萬億 Tokens 的預訓練數據預訓練出其基礎的 7B 模型 Amber，並均勻地開源了 360 個預訓練過程中的模型參數切片。此外，基於 Amber，LLM360 進一步發佈了兩個微調模型：使用指令微調優化的 AmberChat 模型和經過安全對齊優化的 AmberSafe 模型。

1 LLMs 在預訓練過程中迅速建立起有關可信概念的線性表徵

數據集：本文主要探究可信領域下的五個關鍵維度：可靠性（reliability）、毒性（toxicity）、隱私性（privacy）、公平性（fairness）和魯棒性（robustness）。每個維度下，團隊均選取了具有代表性的相關數據集來輔佐研究：TruthfulQA、Toxicity、ConfAIde、StereoSet 以及經過特定擾動處理的 SST-2。團隊根據原數據集的設定，對每個樣本進行標註，以標識每個輸入樣本是否包含不正確、有毒、隱私泄露、有歧視和被擾動的信息。

實驗設置：本文采用線性探針（Linear Probing）技術 [6] 來量化 LLMs 內部表徵對可信概念的建模情況。

具體地，對於某個可信維度下的數據集，團隊收集所有切片在該數據集下的內部表徵，對於每個切片的每一層表徵都訓練一個線性分類器，線性分類器在測試集上的正確率代表着模型內部表徵區分不同可信概念的能力。前 80 個切片的實驗結果如下（後續完整切片的實驗結果請移步正文附錄，實驗趨勢大體相同）：

圖表 4: 線性探針實驗結果

上圖所示實驗結果表明：

隨着預訓練的進行，在所選取的五個可信維度上，大模型中間層的表徵可以很好地區分是否可信；

對於區分某個樣本是否可信，大模型在預訓練的早期階段（前 20 個切片）就迅速學習到相關概念。

2 信息瓶頸視角下審視 LLMs 有關可信概念的預訓練動態

受到利用互信息來探測模型在訓練過程中動態變化的啓發 [7]，本文也利用互信息對 LLMs 表徵在預訓練過程中的動態變化做了初步探索。團隊借鑑了 [7] 中使用信息平面分析傳統神經網絡訓練過程的方法，分別探究了模型表徵 T 與五個原始數據集 X 之間的互信息，以及模型表徵 T 與數據集標籤 Y 之間的互信息。其中，在 Reliability 維度上的實驗結果如下（其他可信維度的實驗結果請移步原文附錄）：

圖表 5: 互信息實驗結果

從圖中可以看出，T 與 X 的互信息呈現出先上升後下降的趨勢，而 T 與 Y 的互信息則持續上升。綜合來看，團隊發現這些趨勢與經典論文 [7] 中描述的先「擬合」 (fitting) 後「壓縮」 (compression) 兩個階段相吻合。具體來說，大語言模型在初始隨機化時並不具備保留信息的能力，因此互信息接近於 0；隨着預訓練的進行，大模型逐漸具備語言理解和概念建模的能力，因此互信息持續增長；隨着預訓練的進一步進行，大模型逐漸學會壓縮無關信息並提取有效信息，因此 T 和 X 的互信息減少，而 T 和 Y 的互信息繼續增長。

從互信息的角度，這是一個很有趣的發現。儘管定義和實驗設置存在細微的差異，但大語言模型和傳統神經網絡的預訓練階段都能被劃分爲「擬合」和「壓縮」兩個階段。這暗示着大語言模型和傳統神經網絡的訓練過程中可能存在一些共通之處。這一發現不僅豐富了團隊對大模型預訓練動態的理解，也爲未來的研究提供了新的視角和思路。

3 預訓練切片如何助力最終 LLMs 可信能力提升

3.1 表徵干預技術

團隊觀察到，既然 LLMs 在其預訓練的早期階段就已經學習到了有關可信概念線性可分的表徵，那麼一個很自然的問題是：LLMs 在預訓練過程中的切片能不能幫助最終的指令微調模型（SFT model）進行對齊呢？

團隊基於表徵干預的技術（Activation Intervention），給予該問題初步的肯定回答。

表徵干預（Activation Intervention）是 LLMs 領域中一個正在快速興起的技術，已被多個場景下驗證有效 [8-9]。這裡以如何減輕 LLMs 的幻覺問題，讓其回答變得更「真實」爲例 [8]，簡要闡述表徵干預技術的基本流程：

1. 首先，分別使用涵蓋真實與虛假信息的正負文本來刺激 LLMs 並收集其對應的內部表徵；

2. 然後，對正負表徵的質心作差獲得「指向真實方向的引導向量（Steering Vector）」；

3. 最後，在 LLMs 前向推理時每一步產生的表徵上加上該引導向量，達到干預輸出的目的。

不同於上述方法從待干預模型自身抽取引導向量，團隊意在從LLMs 預訓練過程的切片中構建引導向量來干預指令微調模型，如下圖所示。

圖表 6: 表徵干預技術示意圖

其中，團隊使用北京大學團隊開源的 PKU-RLHF-10K 數據集 [10-11] 來構建正負文本對，該數據集包含一萬條帶有安全 / 非安全回覆標註的對話數據，可用於 LLMs 的 RLHF 訓練。

3.2 實驗結果分析

論文在上文提及的可信領域下五個維度的數據集（Reliability: TruthfulQA，Toxicity: Toxigen，Fairness: StereoSet，Privacy: ConfAIde，Robustness: SST-2），以及四個常用的大模型通用能力評測數據集（MMLU，ARC，RACE，MathQA）上，評測了四個模型的性能：指令微調模型 AmberChat，安全對齊模型 AmberSafe，使用來自 AmberChat 自身的引導向量干預後的 AmberChat，使用來自中間預訓練切片的引導向量干預後的 AmberChat。實驗結果如下圖所示（更多的實驗觀察結果請移步原文）：

圖表 7: 表徵干預後模型性能評測結果

實驗結果表明，在使用來自預訓練切片的引導向量干預 AmberChat 後，AmberChat在三個可信維度（TruthfulQA，Toxigen，StereoSet）上都有較明顯的提升。同時，這種干預對模型通用能力的影響並不顯著（在 ARC，MMLU 上表現出邊際損失，在 MathQA 和 RACE 上表現出邊際提升）。

令人驚訝的是，使用預訓練的中間切片構建的引導向量，相比於來自 AmberChat 自身的引導向量，能更顯著地提升 AmberChat 模型的可信性能。

4 小結

隨着人工智能技術的不斷進步，未來，當試圖對齊比人類更強大的模型（Superalignment）時，傳統的依賴「人類反饋」的微調技術，如 RLHF 等，或將不再奏效 [12-13]。爲了應對這一挑戰，研究機構正在積極探索新的解決方案。例如，OpenAI 提出了「弱對強監督」的方法 [12]，Meta 提出了「自我獎勵」機制 [13]。同時，越來越多的研究開始關注「自我對齊」（self-alignment）這一新興領域 [14-15] 。

該研究爲解決 Superalignment 問題提供了新的視角：利用 LLMs 在預訓練過程中的切片來輔助最終的模型對齊。團隊首先探究了預訓練過程中 LLMs 是如何構建和理解「可信」這一概念的：1）觀察到 LLMs 在預訓練的早期階段就已經建模了關於可信概念的線性表徵；2）發現 LLMs 在學習可信概念的過程中呈現出的類信息瓶頸的現象。此外，通過應用表徵干預技術，團隊初步驗證了預訓練過程中的切片對於輔助最終 LLMs 對齊的有效性。

團隊表示，期望本研究能夠爲深入理解 LLMs 如何動態構建和發展其內在的可信屬性提供新的視角，並激發未來在 LLMs 對齊技術領域的更多創新嘗試。同時期待這些研究成果能有助於推動 LLMs 向着更可信、更可控的方向發展，爲人工智能倫理與安全領域貢獻堅實的一步。

參考文獻

[1] https://karpathy.ai/stateofgpt.pdf

[2] https://openai.com/research/instruction-following

[3] twitter.com/anthrupad

[4] Liu, Z., Qiao, A., Neiswanger, W., Wang, H., Tan, B., Tao, T., ... & Xing, E. P. (2023). Llm360: Towards fully transparent open-source llms. arXiv preprint arXiv:2312.06550.

[5] Groeneveld, D., Beltagy, I., Walsh, P., Bhagia, A., Kinney, R., Tafjord, O., ... & Hajishirzi, H. (2024). OLMo: Accelerating the Science of Language Models. arXiv preprint arXiv:2402.00838.

[6] Belinkov, Y. (2022). Probing classifiers: Promises, shortcomings, and advances. Computational Linguistics, 48 (1), 207-219.

[7] Shwartz-Ziv, R., & Tishby, N. (2017). Opening the black box of deep neural networks via information. arXiv preprint arXiv:1703.00810.

[8] Li, K., Patel, O., Viégas, F., Pfister, H., & Wattenberg, M. (2024). Inference-time intervention: Eliciting truthful answers from a language model. Advances in Neural Information Processing Systems, 36.

[9] Turner, A., Thiergart, L., Udell, D., Leech, G., Mini, U., & MacDiarmid, M. (2023). Activation addition: Steering language models without optimization. arXiv preprint arXiv:2308.10248.

[10] Ji, J., Liu, M., Dai, J., Pan, X., Zhang, C., Bian, C., ... & Yang, Y. (2024). Beavertails: Towards improved safety alignment of llm via a human-preference dataset. Advances in Neural Information Processing Systems, 36.

[11] https://huggingface.co/datasets/PKU-Alignment/PKU-SafeRLHF-10K

[12] Burns, C., Izmailov, P., Kirchner, J. H., Baker, B., Gao, L., Aschenbrenner, L., ... & Wu, J. (2023). Weak-to-strong generalization: Eliciting strong capabilities with weak supervision. arXiv preprint arXiv:2312.09390.

[13] Yuan, W., Pang, R. Y., Cho, K., Sukhbaatar, S., Xu, J., & Weston, J. (2024). Self-rewarding language models. arXiv preprint arXiv:2401.10020.

[14] Sun, Z., Shen, Y., Zhou, Q., Zhang, H., Chen, Z., Cox, D., ... & Gan, C. (2024). Principle-driven self-alignment of language models from scratch with minimal human supervision. Advances in Neural Information Processing Systems, 36.

[15] Li, X., Yu, P., Zhou, C., Schick, T., Levy, O., Zettlemoyer, L., ... & Lewis, M. (2023, October). Self-Alignment with Instruction Backtranslation. In The Twelfth International Conference on Learning Representations.

AI信任危機之後，揭秘預訓練如何塑造機器的「可信靈魂」

相關資訊