☰

全球開源大模型新王！阿里Qwen2.5來了，性能跨量級超Llama3.1

智東西作者三北編輯漠影

雲計算“春晚”雲棲大會開幕，通義千問大模型再次燃爆全場！

智東西9月19日杭州報道，今日，阿里雲推出全球最強開源大模型Qwen2.5-72B，性能“跨量級”超越Llama3.1-405B，再登全球開源大模型王座。

▲Qwen2.5-72B在多項權威測試中超越Llama-405B

同時，一大串Qwen2.5系列模型隨之開源，包括：語言模型Qwen2.5、視覺語言模型Qwen2-VL-72B、編程模型Qwen2.5-Coder、數學模型Qwen2.5-Math等，累計上架超100個，部分性能趕超GPT-4o，刷新世界紀錄。

“今天是瘋狂星期四”、“史詩級產品”……發佈幾個小時裡，Qwen2.5在海內外社交媒體上掀起討論熱潮，全球開發者紛紛加入試用測試隊伍。

▲Qwen2.5在海內外社交媒體上掀起討論熱潮

智東西也第一時間在魔搭平臺上試用了Qwen2.5，以結合視覺識別的Qwen2.5-Math爲例，當輸入一張幾何相似選擇題截圖，Qwen2.5-Math快速識別題意，並給出了正確的解題過程和答案“B”，準確與速度都不錯。

▲智東西試用Qwen2.5-Math

自2023年4月以來短短一年半時間，通義千問Qwen已長成僅次於Llama的世界級模型羣。

根據阿里雲CTO周靖人公佈的最新數據，截至2024年9月中旬，通義千問開源模型累計下載量已突破4000萬，衍生大模型超5萬個。

▲Qwen系列衍生大模型超5萬個

Qwen2.5在性能上具體有哪些提升？超100個新上架開源模型有哪些亮點？智東西抵達杭州雲棲大會現場爲大家揭秘。

博客地址：https://qwenlm.github.io/blog/qwen2.5/項目地址：https://huggingface.co/spaces/Qwen/Qwen2.5▲官方博客發佈阿里雲Qwen2.5模型族羣

一、再登全球榜首，Qwen2.5跨量級趕超Llama3.1-405B

具體來看看Qwen2.5的性能。

Qwen2.5模型支持高達128K的上下文長度，可生成最多8K內容，支持超29種語言，這意味着能幫用戶勝任萬字文章撰寫。

不僅如此，基於18T token數據預訓練，相比Qwen2，Qwen2.5整體性能提升18%以上，擁有更多的知識、更強的編程和數學能力。

▲阿里雲CTO周靖人在講解Qwen2.5

據悉，旗艦模型Qwen2.5-72B模型在MMLU-rudex基準（考察通用知識）、MBPP 基準（考察代碼能力）和MATH基準（考察數學能力）的得分高達86.8、88.2、83.1。

720億參數的Qwen2.5，甚至“跨數量級”超越4050億巨量參數的Llama3.1-405B。

Llama3.1-405B由Meta於2024年7月發佈，在150多個基準測試集中追平甚至超越了當時SOTA（業界最佳）模型GPT-4o，引發“最強開源模型即最強模型”論斷。

Qwen2.5指令跟隨版本Qwen2.5-72B-Instruct在MMLU-redux、MATH、MBPP、LiveCodeBench、Arena-Hard、AlignBench、MT-Bench、MultiPL-E等權威測評中，超越Llama3.1-405B。

▲Qwen2.5-72B模型測評情況

Qwen2.5再次坐穩全球最強開源大模型位置，助推“開源超閉源”行業趨勢。

這是阿里雲繼今年6月開源通義千問Qwen2系列、趕超當時的最強開源模型Llama3-70B後，再次推出開源系列版本。

每一個新王出現後，很快就會被通義新版本超越，這已成爲AI開發者圈熟悉的節奏。

9月18日晚間Qwen2.5開放後，不少開發者激動地覺都不睡了，先試再說。

▲海內外開發者熱議Qwen2.5

二、史上最大模型族羣誕生，開源模型上架超百個

Qwen2.5開源模型數量史無前例。

阿里雲CTO周靖人在雲棲大會上宣佈，Qwen2.5系列總計上架開源模型超過100個，充分適配各種場景的開發者和中小企業需求。

這響應了衆多開發者的呼聲，他們已經在各大社交媒體“催更”多時。

▲海內外開發者催更Qwen2.5

1、語言模型：從0.5B到72B七個尺寸，從端側到工業級場景全覆蓋

Qwen2.5開源了7個尺寸語言模型，包括0.5B、1.5B、3B、7B、14B、32B、72B，均在對應賽道實現了SOTA成績。

▲多個尺寸Qwen2.5滿足多樣化場景需求

這些版本助開發者兼顧模型能力和成本，適配多種場景需求，比如，3B是適配手機等端側設備的黃金尺寸，32B是最受開發者期待的“性價比之王”，72B是足夠用於工業級、科研級場景的性能王者。

博客地址：https://qwenlm.github.io/zh/blog/qwen2.5-llm/

2、多模態模型：視覺模型理解20分鐘視頻，音語言模型支持8種語言

備受期待的大規模視覺語言模型Qwen2-VL-72B，今日正式開源。

Qwen2-VL能識別不同分辨率和長寬比的圖片，理解20分鐘以上長視頻，具備調節手機和設備的視覺智能體能力，視覺理解能力超越GPT-4o水平。

▲大規模視覺語言模型Qwen2-VL-72B開源

在全球權威測評LMSYS Chatbot Arena Leaderboard上，Qwen2-VL-72B成爲得分最高的開源視覺理解模型。

▲Qwen2-VL-72B成爲得分最高的開源視覺理解模型

Qwen2-Audio大規模音頻語言模型則是一款能聽懂人聲、音樂、自然聲音的開源模型，支持語音聊天、音頻信息分析，支持超8種語言和方言，在主流測評指標上全球領先。

博客地址：http://qwenlm.github.io/blog/qwen2-vl/

3、專項模型：最先進開源數學模型亮相，趕超GPT-4o

用於編程的Qwen2.5-Coder、用於數學的Qwen2.5-Math，也於本次雲棲大會宣告開源。

其中，Qwen2.5-Math是迄今爲止最先進的開源數學模型系列，本次開源了1.5B、7B、72B三個尺寸和數學獎勵模型Qwen2.5-Math-RM。

▲Qwen2.5-Math開源

旗艦模型Qwen2-Math-72B-Instruct在數學相關的下游任務中，表現優於GPT-4o和Claude 3.5等專有模型。

Qwen2.5-Coder在多達5.5T tokens的編程相關數據上作了訓練，當天開源1.5B和7B版本，未來還將開源32B版本。

▲Qwen2.5-Coder開源

博客地址：https://qwenlm.github.io/zh/blog/qwen2.5-math/https://qwenlm.github.io/zh/blog/qwen2.5-coder/

此外值得一提的是，通義千問旗艦模型Qwen-Max也實現了全面升級，在MMLU-Pro、MATH等十多個權威基準上接近甚至趕超GPT-4o，上線通義千問官網和通義APP。用戶也可通過阿里雲百鍊平臺調用Qwen-Max的API。

▲Qwen-Max實現全面升級

自2023年4月初代通義千問大模型發佈以來，阿里雲讓中國企業低成本用上大模型，反過來也推動今天的Qwen2.5系列“越用越好用”。

Qwen2.5系列模型涵蓋基礎版本、指令跟隨版本、量化版本，正是在實戰場景中迭代而來。

三、通義千問Qwen下載破4000萬，“產仔”超5萬個

狂飆一年半，通義千問已成爲僅次於Llama的世界級模型羣。

周靖人公佈的兩組最新數據對此進行了印證：

一是模型下載量，截至2024年9月初，通義千問開源模型累計下載量已經突破4000萬，這是開發者和中小企業用腳投票的結果；

二是衍生模型數量，截至9月初，通義原生模型和衍生模型總數超過5萬個，僅次於Llama。

▲通義千問開源模型累計下載量突破4000萬

至此，“萬模同源”已成爲中國大模型產業發展的顯著趨勢。

什麼概念？國產開源不僅在性能上穩居全球榜首，並且在生態上開疆擴土。海內外的開源社區、生態夥伴、開發者成爲通義千問的“自來水”，通義千問成爲很多企業採用的第一款大模型，也是用得最久的大模型。

早在2023年8月，阿里雲就開源通義千問70億參數模型至免費可商用，再到今年的Qwen1.5、Qwen2、Qwen2.5接連發布，讓開發者快速用上最先進模型的同時，獲得更大控制權和調優空間，從而成爲更多企業的首選。

7月初，全球最大開源社區Hugging Face的工程師曾發推認證，通義是中國最卷的大模型。而通過阿里雲，通義大模型已經服務了各行各業的30多萬客戶。在剛剛過去的2024年第二季度（對應阿里巴巴2025財年Q1），阿里雲AI相關產品收入實現三位數增長。

▲通義大模型服務超30萬客戶

阿里雲做對了什麼？

筆者認爲，不同於國外大廠微軟與ChatGPT強綁定、亞馬遜AWS匯聚三方模型做底層基礎設施，阿里雲綜合兩者優勢，一開始就選擇了AI基礎設施服務和自研大模型兩手抓。

聚焦自研模型方面，阿里雲是國內唯一堅定明確模型開源開放的雲巨頭，在模型突破、生態兼容、開發者服務等方面都不遺餘力地做出了巨大投入，從而讓通義大模型一步步走進世界AI競爭的核心圈。

結語：萬模同源，行業分水嶺時刻

開源模型正追平甚至趕超閉源模型。從7月Meta的Llama-405B到今天阿里雲的Qwen2.5-72B，“萬源同模”景觀正在形成。通義千問大模型的一年半狂飆，讓衆多行業和企業實現更低成本AI規模化落地，行業正進入新的分水嶺時刻。

全球開源大模型新王！阿里Qwen2.5來了，性能跨量級超Llama3.1

相關資訊