騰訊發佈最大開源MoE模型,3890億參數免費可商用

騰訊拿出看家本領,來擠開源賽道,突然發佈了市面上最大的開源MoE模型。

Hunyuan-Large,3890億總參數,520億激活參數。

跑分超過Llama 3.1 405B等開源旗艦,上下文長度支持也高出一檔來到256k。

雖然Hunyuan-Large還不算騰訊內部的旗艦模型,但騰訊介紹底層技術與混元大模型“同宗同源”:

很多細節都是內部業務打磨好再開源出來的,比如用到了騰訊元寶App的AI長文閱讀等功能裡。

現在這樣的一個模型徹底開源,免費可商用,算是很有誠意了。

這次騰訊Hunyuan-Large總共開源了三個版本:預訓練模型、微調模型、FP8量化的微調模型。

在開源社區掀起一陣熱議,HuggingFace首席科學家Thomas Wolf牆裂推薦並總結了幾個亮點。

各路開發者中,有立馬開始下載部署的動手派,也有人希望騰訊入局後,開源模型捲起來能迫使Meta造出更好的模型。

這次騰訊同步發佈了技術報告,其中很多技術細節也引起討論。

如計算了MoE的Scaling Law公式,C ≈ 9.59ND + 2.3 ×108D。

又比如用交叉層注意力節省KV緩存的內存佔用。

下面送上發佈會現場演講和技術報告精華內容總結。

Hunyuan-Large技術報告

MoE的Scaling Law

直接上公式:

C ≈ 9.59ND + 2.3 × 108D

其中C表示計算預算(單位FLOPs),N表示激活參數數量,D表示訓練數據量(單位tokens)。

與傳統密集模型的計算預算公式C=6ND相比,MoE模型公式的差異主要體現在兩個方面:

一是係數從6增加到9.59,反映了MoE額外的路由計算開銷,包含專家切換的計算成本。

二是增加了常數項2.3×108D,反映了長序列MoE模型attention計算的額外開銷。

爲了確定最優激活參數量,團隊投入大量成本展開實驗:

訓練一系列激活參數範圍從10M到1B的模型,使用最高1000億tokens的訓練數據,覆蓋100億到1000億tokens的不同數據規模。

使用isoFLOPs曲線,在固定計算預算下尋找最優點,同時考慮實際訓練batch size的影響,分析不同參數量和數據量的組合,計算得出最優激活參數量約爲58.1B。

而最終Hunyuan-Large選擇了52B的激活參數量,主要考慮到最優點附近曲線平滑,在58.1B附近有較大容差空間,以及計算資源約束、訓練穩定性要求和部署效率平衡等實踐因素。

路由和訓練策略

除了揭秘最優參數配比,技術報告中還詳解了Hunyuan-Large獨特的”MoE心法”。

混合路由策略:

Hunyuan-Large採用共享專家(shared expert)和特殊專家(specialized experts)相結合的混合路由。

每個token激活1個共享專家和1個專門專家,共享專家處理所有token的通用知識,而特殊專家則用top-k路由策略動態激活,負責處理任務相關的特殊能力。

回收路由策略:

傳統MoE常因專家超載而丟棄過多tokens。Hunyuan-Large設計了專家回收機制,保持相對均衡的負載,充分利用訓練數據,保證模型的訓練穩定性和收斂速度。

專家特定學習率適配策略:

不同專家承載的tokens差異巨大,應設定不同學習率,如共享專家使用較大的學習率,確保每個子模型有效地從數據中學習並有助於整體性能。

高質量合成數據

混元團隊開發了一套完整的高質量數據合成流程,主要包括四個步驟:指令生成、指令進化、回答生成和回答過濾。

在指令生成階段,混元團隊使用高質量的數據源作爲種子,覆蓋多個領域和不同複雜度,確保指令的多樣性和全面性。

接下來是指令演化階段,通過提升指令的清晰度和信息量,擴充低資源領域的指令,並逐步提升指令的難度,使得指令更加豐富、精準和具有挑戰性。

在回答生成階段,混元團隊採用專門的模型針對不同領域生成專業的答案。這些模型在規模和設計上各有不同,以確保生成的回答能夠滿足不同領域的要求。

最後是回答過濾階段,混元團隊採用critique模型對生成的回答進行質量評估,並進行自一致性檢查,以確保輸出的答案是高質量的。

通過這四步合成流程,混元團隊能夠生成大量高質量、多樣化的指令-回答數據對,爲MoE模型的訓練提供了豐富、優質的數據支持。

這種數據合成方法不僅提高了模型的訓練效率,也極大地促進了模型在多種下游任務上的表現。

長文能力優化

爲了實現強大的長文本處理能力,混元團隊在訓練過程中採用了多項策略。

首先是分階段訓練,第一階段處理32K tokens的文本,第二階段將文本長度擴展至256K tokens。在每個階段,都使用約100億tokens的訓練數據,確保模型能夠充分學習和適應不同長度的文本。

在訓練數據的選擇上,25%爲自然長文本,如書籍、代碼等,以提供真實的長文本樣本;其餘75%爲普通長度的數據。這種數據組合策略確保了模型在獲得長文理解能力的同時,也能保持在普通長度文本上的基礎處理能力。

此外,爲了更好地處理超長序列中的位置信息,混元團隊對位置編碼進行了優化。他們採用了RoPE位置編碼方法,並在256K tokens階段將base frequency擴展到10億。這種優化方式能夠有效地處理超長序列中的位置信息,提升模型對長文本的理解和生成能力。

除了在公開數據集上進行評測,混元團隊還開發了一個名爲”企鵝卷軸”的長文本評測數據集。

“企鵝卷軸”包含四個主要任務:信息抽取、信息定位、定性分析和數值推理。

不同於現有的長文本基準測試,”企鵝卷軸”有以下幾個優勢:

推理加速優化

爲了進一步提升Hunyuan-Large的推理效率,混元團隊採用了多種優化技術,其中最關鍵的是KV Cache壓縮。

主要結合了兩種方法:GQA(Grouped-Query Attention)和CLA(Cross-Layer Attention)。

GQA通過設置8個KV head組,壓縮了head維度的KV cache;而CLA則通過每2層共享KV cache,壓縮了層維度的內存佔用。

通過這兩種策略的組合,混元MoE模型的KV cache內存佔用降低了約95%,而模型性能基本保持不變。這種顯著的內存優化不僅大幅提升了推理效率,也使得模型更易於部署,適配各種實際應用場景。

後訓練優化

預訓練的基礎上,混元團隊採用了兩階段的後訓練策略,包括監督微調(SFT)和人類反饋強化學習(RLHF),以進一步提升模型在關鍵領域的能力和人類對齊程度。

在SFT階段,混元團隊使用了超過100萬條高質量數據,覆蓋了包括數學、推理、問答、編程等多個關鍵能力領域。爲了確保數據的高質量,團隊採用了多重質量控制措施,包括規則篩選、模型篩選和人工審覈。整個SFT過程分爲3輪,學習率從2e-5衰減到2e-6,以充分利用數據,同時避免過擬合。

在RLHF階段,混元團隊主要採用了兩階段離線和在線DPO結合。離線訓練使用預先構建的人類偏好數據集,以增強可控性;在線訓練則利用當前策略模型生成多個回覆,並用獎勵模型選出最佳回覆,以提高模型的泛化能力。

同時,他們還使用了指數滑動平均策略,緩解了reward hacking問題,確保了訓練過程的平穩和收斂。

One More Thing

在發佈會現場,騰訊混元大模型算法負責人康戰輝還透露,Hunyuan-Large之後,還會考慮逐步開源中小型號的模型,適應個人開發者、邊緣側開發者的需求。

另外騰訊同期開源的3D大模型可移步這裡瞭解。

官網:https://llm.hunyuan.tencent.com/Github地址:https://github.com/Tencent/Tencent-Hunyuan-LargeHugging Face 地址:https://huggingface.co/tencent/Tencent-Hunyuan-Large

參考鏈接:[1]https://x.com/Thom_Wolf/status/1853694513585303771