全球開源大模型新王!阿里Qwen2.5來了,性能跨量級超Llama3.1

智東西作者 三北編輯 漠影

雲計算“春晚”雲棲大會開幕,通義千問大模型再次燃爆全場!

智東西9月19日杭州報道,今日,阿里雲推出全球最強開源大模型Qwen2.5-72B,性能“跨量級”超越Llama3.1-405B,再登全球開源大模型王座。

▲Qwen2.5-72B在多項權威測試中超越Llama-405B

同時,一大串Qwen2.5系列模型隨之開源,包括:語言模型Qwen2.5、視覺語言模型Qwen2-VL-72B、編程模型Qwen2.5-Coder、數學模型Qwen2.5-Math等,累計上架超100個,部分性能趕超GPT-4o,刷新世界紀錄。

“今天是瘋狂星期四”、“史詩級產品”……發佈幾個小時裡,Qwen2.5在海內外社交媒體上掀起討論熱潮,全球開發者紛紛加入試用測試隊伍。

▲Qwen2.5在海內外社交媒體上掀起討論熱潮

智東西也第一時間在魔搭平臺上試用了Qwen2.5,以結合視覺識別的Qwen2.5-Math爲例,當輸入一張幾何相似選擇題截圖,Qwen2.5-Math快速識別題意,並給出了正確的解題過程和答案“B”,準確與速度都不錯。

▲智東西試用Qwen2.5-Math

自2023年4月以來短短一年半時間,通義千問Qwen已長成僅次於Llama的世界級模型羣。

根據阿里雲CTO周靖人公佈的最新數據,截至2024年9月中旬,通義千問開源模型累計下載量已突破4000萬,衍生大模型超5萬個。

▲Qwen系列衍生大模型超5萬個

Qwen2.5在性能上具體有哪些提升?超100個新上架開源模型有哪些亮點?智東西抵達杭州雲棲大會現場爲大家揭秘。

博客地址:https://qwenlm.github.io/blog/qwen2.5/項目地址:https://huggingface.co/spaces/Qwen/Qwen2.5▲官方博客發佈阿里雲Qwen2.5模型族羣

一、再登全球榜首,Qwen2.5跨量級趕超Llama3.1-405B

具體來看看Qwen2.5的性能。

Qwen2.5模型支持高達128K的上下文長度,可生成最多8K內容,支持超29種語言,這意味着能幫用戶勝任萬字文章撰寫。

不僅如此,基於18T token數據預訓練,相比Qwen2,Qwen2.5整體性能提升18%以上,擁有更多的知識、更強的編程和數學能力。

▲阿里雲CTO周靖人在講解Qwen2.5

據悉,旗艦模型Qwen2.5-72B模型在MMLU-rudex基準(考察通用知識)、MBPP 基準(考察代碼能力)和MATH基準(考察數學能力)的得分高達86.8、88.2、83.1。

720億參數的Qwen2.5,甚至“跨數量級”超越4050億巨量參數的Llama3.1-405B。

Llama3.1-405B由Meta於2024年7月發佈,在150多個基準測試集中追平甚至超越了當時SOTA(業界最佳)模型GPT-4o,引發“最強開源模型即最強模型”論斷。

Qwen2.5指令跟隨版本Qwen2.5-72B-Instruct在MMLU-redux、MATH、MBPP、LiveCodeBench、Arena-Hard、AlignBench、MT-Bench、MultiPL-E等權威測評中,超越Llama3.1-405B。

▲Qwen2.5-72B模型測評情況

Qwen2.5再次坐穩全球最強開源大模型位置,助推“開源超閉源”行業趨勢。

這是阿里雲繼今年6月開源通義千問Qwen2系列、趕超當時的最強開源模型Llama3-70B後,再次推出開源系列版本。

每一個新王出現後,很快就會被通義新版本超越,這已成爲AI開發者圈熟悉的節奏。

9月18日晚間Qwen2.5開放後,不少開發者激動地覺都不睡了,先試再說。

▲海內外開發者熱議Qwen2.5

二、史上最大模型族羣誕生,開源模型上架超百個

Qwen2.5開源模型數量史無前例。

阿里雲CTO周靖人在雲棲大會上宣佈,Qwen2.5系列總計上架開源模型超過100個,充分適配各種場景的開發者和中小企業需求。

這響應了衆多開發者的呼聲,他們已經在各大社交媒體“催更”多時。

▲海內外開發者催更Qwen2.5

1、語言模型:從0.5B到72B七個尺寸,從端側到工業級場景全覆蓋

Qwen2.5開源了7個尺寸語言模型,包括0.5B、1.5B、3B、7B、14B、32B、72B,均在對應賽道實現了SOTA成績。

▲多個尺寸Qwen2.5滿足多樣化場景需求

這些版本助開發者兼顧模型能力和成本,適配多種場景需求,比如,3B是適配手機等端側設備的黃金尺寸,32B是最受開發者期待的“性價比之王”,72B是足夠用於工業級、科研級場景的性能王者。

博客地址:https://qwenlm.github.io/zh/blog/qwen2.5-llm/

2、多模態模型:視覺模型理解20分鐘視頻,音語言模型支持8種語言

備受期待的大規模視覺語言模型Qwen2-VL-72B,今日正式開源。

Qwen2-VL能識別不同分辨率和長寬比的圖片,理解20分鐘以上長視頻,具備調節手機和設備的視覺智能體能力,視覺理解能力超越GPT-4o水平。

▲大規模視覺語言模型Qwen2-VL-72B開源

在全球權威測評LMSYS Chatbot Arena Leaderboard上,Qwen2-VL-72B成爲得分最高的開源視覺理解模型。

▲Qwen2-VL-72B成爲得分最高的開源視覺理解模型

Qwen2-Audio大規模音頻語言模型則是一款能聽懂人聲、音樂、自然聲音的開源模型,支持語音聊天、音頻信息分析,支持超8種語言和方言,在主流測評指標上全球領先。

博客地址:http://qwenlm.github.io/blog/qwen2-vl/

3、專項模型:最先進開源數學模型亮相,趕超GPT-4o

用於編程的Qwen2.5-Coder、用於數學的Qwen2.5-Math,也於本次雲棲大會宣告開源。

其中,Qwen2.5-Math是迄今爲止最先進的開源數學模型系列,本次開源了1.5B、7B、72B三個尺寸和數學獎勵模型Qwen2.5-Math-RM。

▲Qwen2.5-Math開源

旗艦模型Qwen2-Math-72B-Instruct在數學相關的下游任務中,表現優於GPT-4o和Claude 3.5等專有模型。

Qwen2.5-Coder在多達5.5T tokens的編程相關數據上作了訓練,當天開源1.5B和7B版本,未來還將開源32B版本。

▲Qwen2.5-Coder開源

博客地址:https://qwenlm.github.io/zh/blog/qwen2.5-math/https://qwenlm.github.io/zh/blog/qwen2.5-coder/

此外值得一提的是,通義千問旗艦模型Qwen-Max也實現了全面升級,在MMLU-Pro、MATH等十多個權威基準上接近甚至趕超GPT-4o,上線通義千問官網和通義APP。用戶也可通過阿里雲百鍊平臺調用Qwen-Max的API。

▲Qwen-Max實現全面升級

自2023年4月初代通義千問大模型發佈以來,阿里雲讓中國企業低成本用上大模型,反過來也推動今天的Qwen2.5系列“越用越好用”。

Qwen2.5系列模型涵蓋基礎版本、指令跟隨版本、量化版本,正是在實戰場景中迭代而來。

三、通義千問Qwen下載破4000萬,“產仔”超5萬個

狂飆一年半,通義千問已成爲僅次於Llama的世界級模型羣。

周靖人公佈的兩組最新數據對此進行了印證:

一是模型下載量,截至2024年9月初,通義千問開源模型累計下載量已經突破4000萬,這是開發者和中小企業用腳投票的結果;

二是衍生模型數量,截至9月初,通義原生模型和衍生模型總數超過5萬個,僅次於Llama。

▲通義千問開源模型累計下載量突破4000萬

至此,“萬模同源”已成爲中國大模型產業發展的顯著趨勢。

什麼概念?國產開源不僅在性能上穩居全球榜首,並且在生態上開疆擴土。海內外的開源社區、生態夥伴、開發者成爲通義千問的“自來水”,通義千問成爲很多企業採用的第一款大模型,也是用得最久的大模型。

早在2023年8月,阿里雲就開源通義千問70億參數模型至免費可商用,再到今年的Qwen1.5、Qwen2、Qwen2.5接連發布,讓開發者快速用上最先進模型的同時,獲得更大控制權和調優空間,從而成爲更多企業的首選。

7月初,全球最大開源社區Hugging Face的工程師曾發推認證,通義是中國最卷的大模型。而通過阿里雲,通義大模型已經服務了各行各業的30多萬客戶。在剛剛過去的2024年第二季度(對應阿里巴巴2025財年Q1),阿里雲AI相關產品收入實現三位數增長。

▲通義大模型服務超30萬客戶

阿里雲做對了什麼?

筆者認爲,不同於國外大廠微軟與ChatGPT強綁定、亞馬遜AWS匯聚三方模型做底層基礎設施,阿里雲綜合兩者優勢,一開始就選擇了AI基礎設施服務和自研大模型兩手抓。

聚焦自研模型方面,阿里雲是國內唯一堅定明確模型開源開放的雲巨頭,在模型突破、生態兼容、開發者服務等方面都不遺餘力地做出了巨大投入,從而讓通義大模型一步步走進世界AI競爭的核心圈。

結語:萬模同源,行業分水嶺時刻

開源模型正追平甚至趕超閉源模型。從7月Meta的Llama-405B到今天阿里雲的Qwen2.5-72B,“萬源同模”景觀正在形成。通義千問大模型的一年半狂飆,讓衆多行業和企業實現更低成本AI規模化落地,行業正進入新的分水嶺時刻。