☰

百川智能開源最新商用大模型！王小川：比LLaMA更香

這次在發佈會現場表達出“遙遙領先”之意的，是百川智能CEO王小川。

保持一個月新發布一次大模型的頻率，百川智能最新開源微調後的Baichuan2-7B，並且免費商用。

王小川表示，MMLU等英文評估基準的英文主流任務評分，70億參數量的Baichuan2-7B在英文主流任務上與130億參數的LLaMA2相當。

一併開源的還有Baichuan2-13B、Baichuan 2-13B-Chat與其4bit量化版本，以及模型訓練從220B到2640B全過程的Check Poin。

同時公佈了詳細介紹訓練細節的Baichuan2技術報告，旨在讓外界瞭解其訓練過程，“更好地推動大模型學術研究和社區的技術發展”。

Baichuan2系列大模型，開源的

Baichuan2系列的兩款開源大模型，分別是70億參數的Baichuan2-7B，以及130億參數的Baichuan2-13B。

其數據取自萬億互聯網數據和垂直行業，訓練token規模在2.6TB。

據悉，Baichuan2系列大模型的數據處理借鑑了很多搜索時用到的經驗。

一方面是在超大規模內容通過聚類系統，達到“小時級完成千億數據清洗和去重工作”；另外，大部分數據清洗時進行了多粒度內容質量打分，支持細顆粒採樣，從而提高模型質量（尤其是中文領域）。

系列裡的兩者均支持中、英、西、法等數十種語言，主要應用學術研究、互聯網、金融等領域。

相比一代，Baichuan2數學能力提升49%，代碼能力提升46%，安全能力提升37%，邏輯能力提升25%，語義理解能力提升15%，文理科能力方面均有提升。

百川在infra層也做了優化，使得現在在千卡A800集羣裡達到180TFLOPS的訓練性能，使得機器利用率超過50%。

王小川在現場表示，在模型參數和結構設置上，Baichuan大模型儘可能靠近LLaMA系列。

除了再更大模型，百川智能還公佈了3000億-2.6萬億tokens的模型訓練中間過程。

也就是說，百川像切片一樣把不同大小token的能力開發出來，“對大家理解預訓練，或者在預訓練上做微調強化更容易操作。”

這也是在國內首次有公司能開放這樣的訓練過程。

值得一提的是，百川系列大模型對學術界師生開通了綠色通道，申請時可以獲得更多資料，以幫助學術。

預計明年1季度推出“超級應用”

自成立起，百川智能保持着月更大模型的速度，呈現出開閉源交替發佈的情況。

此前Baichuan-7B、Baichuan-13B開源後，Hugging Face首周下載量破百萬，總下載量爲500萬，是全球下載量最高的開源大模型，申請部署試用的企業數量超200家。

閉源模型方面，則有上個月發佈的Baichuan-53B，對大模型和搜索進行了“很高程度”的融合。

爲何“開源+閉源”並行？

“在二季度最後一個月，我們認爲當時的需求，也是我們能貢獻的地方，就是開源模型。”王小川現場解釋稱，“所以成立公司之後我們就發佈開源模型，同時兼顧閉源大模型的訓練。”

迄今爲止，國內發佈的大模型總數超百家。

不只是訓模型，“落地”這一步也來到眼前：一週前，首批11家國產AI大模型也開始向公衆開放。

但如中國科學院院士、清華大學人工智能研究院名譽院長張鈸在發佈會演講時提到，市面上的大模型，“主要集中在垂直領域的應用上”，而不是“對大模型的學術研究本身”。

然而，這個工作既迫切，又重要。

大模型賽道自身的繁榮，開源有益對創新和研發效率的助推，都有利於徹底瞭解GPT。

確定開閉源並行的公佈模式，密集對外公佈階段性成果，目前App已實現對外開放，百川智能的下一步計劃是什麼？

今年四季度，預計發佈千億參數大模型。

明年一季度左右，預計推出“超級應用”。

這兩個時間節點，也被諸多大模型廠商和創業公司此前立下flag。感覺到時候，作用用戶一方，咱們又有更多期（hao）待（xi）了～

相關資訊