☰

什麼是開源AI？官方定義終於來了 Meta Llama模型沒過關

開源AI終於有了“官方”定義。

長期致力於定義和“管理”所有開源事務的開放源代碼倡議（OSI），週一發佈了其開源AI定義（OSAID）1.0版。根據OSAID，AI模型若要被視爲開源，必須提供足夠的信息，使任何人都可以“實質性地”重建該模型。模型還必須披露與其訓練數據相關的任何重要細節，包括數據的來源、處理方式以及獲取或許可的方式。

OSAID還列出了開發者使用開源AI時應享有的使用權，例如可以爲任何目的使用和修改模型，而無需獲得他人許可。

OSI執行副總裁Stefano Maffulli表示，制定開源AI官方定義主要目的是，讓政策制定者和AI開發者達成一致。

OSI並不強制施壓開發者遵守OSAID定義，但打算對那些不符合該定義卻被描述爲“開源”的模型進行標記。“我們希望當有人試圖濫用這個術語時，AI社區會說，‘我們不承認這是開源’，並加以糾正。”Maffulli說道。

Meta：我反對

目前，許多初創企業和大型科技公司，尤其是Meta，稱其AI模型發佈策略爲“開源”，但很少符合OSAID的標準。研究人員發現，許多“開源”模型實際上只是名義上開源，但實際訓練模型所需的數據是保密的，而且運行這些模型所需要的計算能力超出了許多開發者的能力範圍。

例如，Meta要求月活躍用戶超過7億的平臺獲得特殊許可才能使用其Llama模型。Maffulli公開批評Meta將其模型稱爲“開源”的做法。而谷歌和微軟在與OSI討論後，已經同意不再將不完全開放的模型稱爲“開源”，但Meta並未這麼做。

此外，長期宣傳其模型爲“開源”的Stability AI要求年收入超過100萬美元的企業獲得企業許可，而法國AI新創公司Mistral的許可證則禁止將某些模型和輸出用於商業用途。

Meta自然不認同這一評估。儘管該公司參與了定義的起草過程，但對OSAID的措辭表示異議。Meta發言人稱，Llama的許可條款和隨附的可接受使用政策對有害應用提供了防護。Meta還表示，在加州AI相關法規正在演變之際，該公司對共享模型細節的做法是“謹慎的”。

分析認爲，Meta不願公開訓練數據，很可能與其自身及大多數AI模型的開發方式有關。

AI公司從社交媒體和網站上收集大量圖像、音頻和視頻等數據，並以這些“公開可用數據”訓練模型。在如今競爭激烈的市場中，數據集的收集和優化方法被視爲競爭優勢，公司常以此爲由拒絕披露。

但訓練數據的細節也可能讓開發者面臨法律風險。作者和出版商聲稱，Meta使用了受版權保護的書籍進行訓練。藝術家們也對Stability AI提起訴訟，指控其使用其作品而未給予認可，將其行爲比作盜竊。

因此，OSAID的開源AI定義，可能會給那些試圖順利解決訴訟的公司帶來問題，特別是如果原告和法官認爲該定義足夠合理而在法庭上引用。

什麼是開源AI？官方定義終於來了 Meta Llama模型沒過關

相關資訊