百川智能開源最新商用大模型!王小川:比LLaMA更香

這次在發佈會現場表達出“遙遙領先”之意的,是百川智能CEO王小川。

保持一個月新發布一次大模型的頻率,百川智能最新開源微調後的Baichuan2-7B,並且免費商用。

王小川表示,MMLU等英文評估基準的英文主流任務評分,70億參數量的Baichuan2-7B在英文主流任務上與130億參數的LLaMA2相當。

一併開源的還有Baichuan2-13B、Baichuan 2-13B-Chat與其4bit量化版本,以及模型訓練從220B到2640B全過程的Check Poin。

同時公佈了詳細介紹訓練細節的Baichuan2技術報告,旨在讓外界瞭解其訓練過程,“更好地推動大模型學術研究和社區的技術發展”。

Baichuan2系列大模型,開源的

Baichuan2系列的兩款開源大模型,分別是70億參數的Baichuan2-7B,以及130億參數的Baichuan2-13B。

其數據取自萬億互聯網數據和垂直行業,訓練token規模在2.6TB。

據悉,Baichuan2系列大模型的數據處理借鑑了很多搜索時用到的經驗。

一方面是在超大規模內容通過聚類系統,達到“小時級完成千億數據清洗和去重工作”;另外,大部分數據清洗時進行了多粒度內容質量打分,支持細顆粒採樣,從而提高模型質量(尤其是中文領域)。

系列裡的兩者均支持中、英、西、法等數十種語言,主要應用學術研究、互聯網、金融等領域。

相比一代,Baichuan2數學能力提升49%,代碼能力提升46%,安全能力提升37%,邏輯能力提升25%,語義理解能力提升15%,文理科能力方面均有提升。

百川在infra層也做了優化,使得現在在千卡A800集羣裡達到180TFLOPS的訓練性能,使得機器利用率超過50%。

王小川在現場表示,在模型參數和結構設置上,Baichuan大模型儘可能靠近LLaMA系列。

除了再更大模型,百川智能還公佈了3000億-2.6萬億tokens的模型訓練中間過程。

也就是說,百川像切片一樣把不同大小token的能力開發出來,“對大家理解預訓練,或者在預訓練上做微調強化更容易操作。”

這也是在國內首次有公司能開放這樣的訓練過程。

值得一提的是,百川系列大模型對學術界師生開通了綠色通道,申請時可以獲得更多資料,以幫助學術。

預計明年1季度推出“超級應用”

自成立起,百川智能保持着月更大模型的速度,呈現出開閉源交替發佈的情況。

此前Baichuan-7B、Baichuan-13B開源後,Hugging Face首周下載量破百萬,總下載量爲500萬,是全球下載量最高的開源大模型,申請部署試用的企業數量超200家。

閉源模型方面,則有上個月發佈的Baichuan-53B,對大模型和搜索進行了“很高程度”的融合。

爲何“開源+閉源”並行?

“在二季度最後一個月,我們認爲當時的需求,也是我們能貢獻的地方,就是開源模型。”王小川現場解釋稱,“所以成立公司之後我們就發佈開源模型,同時兼顧閉源大模型的訓練。”

迄今爲止,國內發佈的大模型總數超百家。

不只是訓模型,“落地”這一步也來到眼前:一週前,首批11家國產AI大模型也開始向公衆開放。

但如中國科學院院士、清華大學人工智能研究院名譽院長張鈸在發佈會演講時提到,市面上的大模型,“主要集中在垂直領域的應用上”,而不是“對大模型的學術研究本身”。

然而,這個工作既迫切,又重要。

大模型賽道自身的繁榮,開源有益對創新和研發效率的助推,都有利於徹底瞭解GPT。

確定開閉源並行的公佈模式,密集對外公佈階段性成果,目前App已實現對外開放,百川智能的下一步計劃是什麼?

今年四季度,預計發佈千億參數大模型。

明年一季度左右,預計推出“超級應用”。

這兩個時間節點,也被諸多大模型廠商和創業公司此前立下flag。感覺到時候,作用用戶一方,咱們又有更多期(hao)待(xi)了~