智源研究院院長王仲遠:GPT4不是國內大模型的盡頭

出品|本站科技《態度AGI》欄目

作者丨丁廣勝 楊霞清

6月14日,“2023智源大會”巔峰對話環節,智譜AI CEO張鵬、月之暗面創始人楊植麟、百川智能創始人王小川、面壁智能CEO李大海,中國四大創業大模型CEO罕見同臺,在最後都表達了對智源研究院的感謝!

智譜AI孵化於智源研究院,楊植麟創立月之暗面前是智源悟道大模型的主要研究員,面壁智能的首席科學家劉知遠是智源大模型團隊的核心人員之一。國內大模型創業公司的技術,或多或少受益於智源研究院的開源。

這場巔峰對話的主持人王仲遠,在2024年2月,從快手副總裁任上離職,從黃鐵軍手上接過智源研究院院長的接力棒,全面負責智源研究院的各項工作。

1985年出生的王仲遠看起來很年輕,有着技術人員的簡單直接。畢業於中國人民大學本碩博。最早在亞洲微軟研究院工作6年,後加入Facebook(現Meta),回國後先後任職美團、快手等,從事AI相關研究和產業化15年。從研究機構到企業,再到研究機構,王仲遠笑着說,智源研究院的目標是能夠真正跟全世界最頂尖的研究機構掰掰手腕。

有別於體制內的研究機構,智源研究院以企業化的方式來招聘和管理人員,王仲遠稱智源研究院的人員是以市場化的方式和薪酬來招聘的,包括他自己。

有別於大廠的技術部門,智源研究院着眼的是3-5年未來技術的研究,而大廠只能進行未來半年到1年的技術開發,或許還會因爲業務的壓力被隨時砍掉。

從企業到研究機構,王仲遠可以專注於技術的研究。2022年底ChatGPT的橫空出世,讓他篤定通用人工智能時代正在到來,應該專注和All in AI的研究。

在世界模型上,王仲遠認爲,人工智能感知、理解物理世界的終極技術路線不是以語言大模型爲核心對齊和映射其他模態的技術路線,而是應該採取統一模型的範式,實現多模態的輸入和輸出,讓模型具備原生的多模態擴展能力,向世界模型演進。

他表示,大模型將以數字智能體的形態與智能硬件融合,以具身智能的形態從數字世界進入物理世界,同時,大模型這一技術手段可爲科學研究提供新的知識表達範式,加速人類對微觀物理世界規律的探索與研究突破,不斷趨近通用人工智能的終極目標。

智源研究院的大模型全家桶包括大語言模型系列、多模態大模型系列、具身智能大模型、生物計算大模型四大板塊。

備受關注的是2024智源大會發布的原生多模態世界模型Emu 3。行業現有的多模態大模型多爲對於不同任務而訓練的專用模型,例如Stable Diffusion之於文生圖,Sora之於文生視頻,GPT-4V之於圖生文。每類模型都有對應的架構和方法,例如對於視頻生成,行業普遍參照Sora選擇了DiT架構。但是現有模型的能力多爲單一分散的能力組合,而不是原生的統一能力,例如目前Sora還做不到圖像和視頻的理解。

爲了實現多模態、統一、端到端的下一代大模型,智源推出了Emu3原生多模態世界模型。Emu3採用智源自研的多模態自迴歸技術路徑,在圖像、視頻、文字上聯合訓練,使模型具備原生多模態能力,實現了圖像、視頻、文字的統一輸入和輸出。Emu3從模型訓練開始就是爲統一的多模態生成和理解而設計的,具備生成高質量圖片和視頻、續寫視頻、理解物理世界等多模態能力。

簡單來說,Emu3既統一了視頻、圖像、文字,也統一了生成和理解。Emu3在持續訓練中,經過安全評估之後將逐步開源。

近日,本站科技獨家對話智源研究院院長王仲遠,談及智源研究院的未來規劃和大模型的發展等熱門話題,以下爲採訪實錄(略作修改):

智源對產業界最大的貢獻:真開源

本站科技:爲什麼選擇從企業高管加盟智源?未來智源研究院有哪些新規劃?

王仲遠:我從十多年前開始從事人工智能研究,所有做人工智能的人都在追逐AGI(通用人工智能),都希望機器有一天像人類一樣擁有智能。ChatGPT、GPT3.5、GPT4正在逐漸實現大家的夢想。過去這一年我非常興奮。2023年是一個分水嶺,之前是弱人工智能時代,2023年後進入通用人工智能時代。這個轉變的核心是大模型。從企業回到研究機構,能讓我全身心投入人工智能技術研究和發展上。

智源研究院是最早研究大模型的機構之一。從2020年開始,組建了一個百人的技術攻關團隊,開始研發悟道系列大模型。2021年3月份發佈了悟道1.0,6月份發佈了悟道2.0,創造了當時中國首個大模型等紀錄,悟道2.0是當時全球最大參數的模型(1.75萬億參數)。中國現有的大模型大多得益於悟道系列大模型的開源技術。甚至“大模型”這個中文詞彙,是智源研究院首先提出來。

未來,智源要繼續做超前的3到5年的人工智能的研究。我們目前主要有大模型(多模態)、具身智能(具身智能大模型)、生命科學、系統工程、大模型安全等五個重點方向。

本站科技:智源這些研究成果,如何輸送給產業界?

王仲遠:最直接的輸送方式是把我們所有的研究成果絕大部分都開源了。過去的一年,我們智源開源社區發佈的模型超過七十餘款,全球總下載量4700多萬次,在國內各個科研機構中絕對領先。這就是我們對於開源社區以及產業界所做的重大貢獻。

舉個例子,我們的文本向量模型叫BGE( BAAI general embedding),針對語言模型解決了幻覺問題。BGE模型幾乎是全球下載量最高的國產AI模型,火山引擎、百度、騰訊雲、華爲雲,包括Azure都集成了BGE模型,成爲他們雲服務的一部分,並且對外提供商用。

我們這種貢獻是公益性的,智源是非盈利性機構,在做公益性的貢獻。智源研究院對整個產業界最大的貢獻:真開源。

本站科技:不少大公司也在做大模型和AI相關的研究,智源的研究和字節、百度、阿里等公司相比,有什麼不一樣的地方?

王仲遠:企業所期望的研究週期不可能是5到10年,企業的研究週期可能就是未來半年或者未來三個月就能夠看到實際效果的技術。這種研究更像是應用的研究,是偏應用型的研究。

而智源依然會專注在最底層、最基礎、最核心技術的突破性研究。我們能夠接受研究的失敗,我們也能夠接受更長的研究週期,兩年、三年乃至五年。

本站科技:這些研究目標很考驗人才儲備。相比大廠的高薪酬,智源如何招募最優秀的人才?

王仲遠:智源是一個非常年輕有活力的機構,我們非常倡導青年人挑大樑,不論資排輩。這也是我們的用人理念,因爲在人工智能領域,青年人依然是創新的主力軍。

同時智源實行市場化的薪酬,意味着有着非常具備競爭力的薪酬體系。這也是北京市給智源這種新型研發機構一個獨特的優勢。

本站科技:智源目前的團隊規模和建制是怎樣的?

王仲遠:基本上是以科研人員爲主,會根據我們的研究方向,特別是重點的研究方向劃分團隊,最終讓各個團隊之間能夠形成非常重要的協同效應。圍繞定下來的一些戰略性研究目標,一起齊心協力地往前走。

本站科技:您提到智源是用市場化的薪酬去吸引優秀的研究人員,但智源又是非盈利性組織,智源研究院的運營資金來源於哪裡?

王仲遠:智源是理事會領導下的院長負責制。理事會相當於企業裡的董事會,院長相當於CEO。理事會有小米、百度、美團等來自於企業,也來自高校的像清華,中科院、北大等的理事。

大模型的研發是非常消耗資源,消耗算力的,所以希望有更多的支持,使得我們能夠真正跟全世界最頂尖的研究機構掰掰手腕。希望產業界能夠對類似智源的研究機構有更多的支持,或者有更多的聯合研究的項目,最終這些研究也會反哺產業界。

GPT4仍不足出爆款應用

本站科技:AI的應用首先會在B端還是C端爆發?什麼時候才能出現AI時代的“抖音”和“美團”?

王仲遠:過去一年大家的感受是AI行業很熱乎,媒體上也很熱,但普通用戶好像沒那麼多直接的感受,有很強的溫差。

很重要的原因是,基礎模型依然亟待突破,整個國內的大模型依然處在趕超GPT3.5的階段。國內大模型在中文的語境下已經開始能夠接近逼近GPT4,但是GPT4也在不斷研發新版本,所以依然處於追趕的局面。

國內的大模型達到GPT4之後,我們纔可以開始談場景、談應用、談To B和C端。甚至達到GPT4在我看來依然不夠,可能要到能夠對標GPT下一代的模型能力,那個時候會看到應用加速發展。

而且,爆款應用需要一定的時間沉澱,要結合很多的因素,包括網絡帶寬、硬件的發展、平臺的發展、用戶的需求、社會智能化的水平等,是一個綜合的因素。比如,移動互聯網時代,2007年iPhone 出現,直到2011年iPhone 4發佈, 大部分的知名應用纔出現,美團和抖音等是2012年才產生的。

AI時代的爆款應用一定會出現,只是還沒有到達那個爆發點。

本站科技:現階段大模型最大的挑戰是技術上的突破,還是推動應用落地?

王仲遠:在不同的時間節點,目標肯定不一樣。

去年最重要的是能夠追上GPT-4,現階段我們看到了一些希望,可能在中文場景是已經很接近GPT4了,但是我們肯定希望它是全面的,不加限定詞的,全面的能夠追上或者超過GPT4。

當大模型技術能力達到一定程度後,會分出兩大方向。一個方向開始去跟產品結合,推動應用,發揮商業化的價值。另一方面,有少量的幾家機構持續做最頂尖的大模型的迭代和優化。

所以,未來擅長做場景應用的、擅長做業務的,去做應用落地。少數幾家有能力有實力的,不管是企業還是研究機構,應該繼續去攻堅技術。

本站科技:您提到說國內很多大模型其實沒達到GPT4的能力,但國內好多公司在去年就號稱自己達到了GPT4的水平,您怎麼看?

王仲遠:這正是智源大模型評測榜單的意義所在。

本站科技:大模型評測備受關注,第一期發佈之後有哪些反饋?

王仲遠:還挺好。我們確實感謝各家企業的理解和包容。發佈完之後,我們得到了大量正向的反饋,對於很多的企業而言,他們也想知道自己模型的效果,因爲團隊總是會說自己的模型效果好,這時候有一個權威的第三方中立機構,能夠去科學權威的做模型評估,對於企業來講非常重要。

本站科技:最近大模型公司都在打價格戰,有些大廠模型直接免費,這是對整個行業是好事還是壞事?

王仲遠:價格戰有利有弊。有利的方面,價格降低有利於更多的企業和用戶,或者開發者願意嘗試使用大模型。但是如果它低於實際的成本,使得各家大模型公司不堪重負,其實並不是一個好事情。因爲大模型的發展還遠沒到盡頭,依然需要投入大量的資源去做研發,GPT3.5、GPT4絕對不應該是國內大模型發展的盡頭。我們應該去突破GPT4,需要繼續投入十倍甚至於百倍的資源去發展。這就意味着需要一個良性的商業循環,才能促進整個產業界有更好的發展。

只有當企業有了足夠充足的利潤,他們才能更好的投入技術的研發和推動應用,也才能資助像智源這樣的非盈利性機構做更好的研究。

關於《態度AGI》

本站科技重磅推出系列對話欄目《態度AGI》。過去三年,AI變革風起雲涌,全球科技秩序正在重構,通往AGI的道路或許正在悄然臨近。本欄目以AGI爲題,將對話100位AI專家、企業家、投資人,試圖撥開雲霧,與大家一道見證AGI時代的到來。第四期對話智源研究院院長王仲遠。

往期回顧:

《態度AGI》第一期:對話李開復:大模型創業狂奔一年 中美差距縮小 我十年不套現

《態度AGI》第二期:對話王小川:我們不跟進大模型價格戰

《態度AGI》第三期:對話戴文淵:大模型價格戰不解決核心問題