中國開源參與者數量位居世界前列 大模型開源生態逐漸形成

大模型崛起以來,關於它是否要開源的討論就始終未停歇。Meta、谷歌、阿里雲、零一萬物等“開源派”代表,陸續推出了各自的“開源”大模型,或採用Apache 2.0等常見的開源軟件許可證進行許可,或採用自行定製的模型許可證進行許可。OpenAI、字節跳動、百度等“閉源派”代表,則通過閉源形式研發自己的大模型,加速商業化進程。

伴隨開源陣營逐漸壯大,其生態也得以展現。近日,“2024開放原子開源生態大會”在北京舉行。會議現場,人工智能開源的利弊、爲何開源等話題再次引發了與會企業家及學者的討論。模式之爭的背後,是關於如何平衡技術創新、商業利益、社區參與和市場競爭力的討論。

開源能實現快速的迭代試錯

顧名思義,開源是指一種軟件開發模式,即源代碼免費公佈,開發者可自由下載、修改、分發,進而反饋軟件Bug(軟件缺陷或錯誤),提出優化建議。從目前我國的開源進展來看,根據工業和信息化部部長金壯龍在會議期間的介紹,近年來,中國紮實構建國內開源體系,支持設立開放原子開源基金會,搭建起國內外交流、產學研合作的重要平臺。其中,開源歐拉社區匯聚貢獻者2萬餘人,用戶數量超過350萬;開源鴻蒙項目吸引340餘家生態單位共建,搭載設備數量超過9億臺,木蘭中文開源許可協議實現國際通用。目前,我國開源參與者數量、增長速度均位居世界前列。

開源模型,是指可免費使用、公佈了模型參數等技術細節的模型。開放原子開源基金會在此次大會期間正式發佈了開放原子模型許可證第一版(OpenAtom Model License, Version 1.0),可爲大模型應用提供由基金會中立維護、任何人均可自由選用的開放許可證。

在中國科學院軟件研究所副總工江大勇看來,自1991年Linux創始人首次發佈其操作系統版本以來,系統已從最初的僅含1萬行代碼,發展到如今的內核規模達3000萬行代碼,展現了開源軟件的生機與潛力。

“GPT發展這麼快速,單月就發展到億級用戶,這是歷史上從來沒有的。它爲什麼能夠發展這麼快?很關鍵的原因是開源推動快速迭代、快速試錯。”在江大勇看來,通過開源的方式實現快速迭代試錯,也是AI的主流技術路線之一。

開放原子開源基金會秘書長助理兼運營部部長李博也認爲,開源正逐漸成爲推動AI技術進步的重要途徑,開源數據集的提供降低了研究和應用的門檻,使得更多的研究人員、初創公司能夠參與到人工智能的研究之中,共享數據、共擔算力、共建算法。

不過,開源和閉源究竟哪個所需的成本更低,業內始終爭論不休。今年4月,百度創始人李彥宏曾公開表示:“大家以前用開源覺得開源便宜,其實在大模型場景下,開源是最貴的。”

在江大勇看來,大模型時代與過去工業時代“十年磨一劍”不同,如今通過開源的方式可更快實現自身的產品迭代和生態覆蓋,解決單一主體創新成本過高的問題。“開源後每個人的智能結合在一起,會出現(智力)涌現,這也是大模型的特點。通過去中心化的協作,激發各主體創新效率和創新質量。”江大勇稱。

計算架構下,AI發展仍面臨三大困境

與會期間,不少企業及專家還表示,其實人工智能開源是很多企業基於實際情況必須做出的選擇。

中國電信天翼雲產品專家、魔樂社區負責人李寶龍就直言,在國內做人工智能,首先要面對AI中文可用資源匱乏的問題。“不是AI中文資源匱乏,是可用資源匱乏。舉個例子,前段時間GPT出來的時候,國內訓練了一個大模型並開放出來測試,但是需要輸入中文以後翻譯成英文,生成後再翻譯回中文。”

北京智源研究院副院長林泳華也表示,就大模型的發展來說,中文數據,尤其是高質量的中文數據還是很欠缺,開源則可彌補這個問題。

除了訓練數據不足,江蘇潤開鴻數字科技有限公司副總裁於大伍介紹,從計算架構來看,當下AI發展面臨三個困境——訓練與推理高能耗、計算架構與軟硬件生態封閉、算力系統複雜度高,這導致投入產出比低。與此同時,操作系統還面臨着重、笨、雜的問題。

“我們私底下在想該怎麼解決這些問題,想了很多辦法,最後我們覺得,一個比較好的載體是社區。”於大伍表示。

不過,談到做社區,業內不少人認爲,社區形式無法讓AI技術快速變現,會影響商業化。對此,於大伍持有不同觀點。

“其實大家做開源就知道,開源跟商業是螺旋向上的發展(關係),所以社區一定要跟商業很好地結合。我們現在想的是,社區匯聚了國產AI全產業鏈的能力,但社區不提供商業化的服務,而是依託成員單位提供這樣的服務。在這種感召下,會有很多的開發者願意分享。”於大伍說。