莆田版GPT-3開源:同等復現預訓練模型GPT Neo,可在Colab上完成微調

新智元報道

來源:Eleuther AI

編輯:小勻

【新智元導讀】GPT-3開源了?Eleuther AI推出的名爲GPT-Neo的開源項目:公開發布的GPT-3同等復現預訓練模型(1.3B & 2.7B),可在Colab上完成微調。

……當然此 GPT-3非彼 GPT-3。

近日,Eleuther AI在GitHub上推出了一個名爲GPT-Neo的開源項目:GPT-3同等復現預訓練模型(1.3B & 2.7B),並可在Colab上完成微調。

雖然GPT-Neo與真正的GPT-3比,參數量仍然很小(較大版本也只與GPT-3最小模型的參數量),但開源又免費,仍然得到了「同性好友們」的認可!

項目目前在GitHub上已經得到了近3k的star。

Eleuther AI也表示,未來會進一步開源10B版本和原始大小版本的GPT3模型參數。

「莆田版」GPT-3

在Eleuther AI官網上,他們對GPT-Neo的描述是,「一系列基於變換器的語言模型的代碼名稱,這些模型的風格鬆散地圍繞着GPT架構,我們計劃對其進行訓練和開源。我們的主要目標是複製一個GPT-3大小的模型,並將其免費開源給公衆。」

在這一過程中,我們將對替代架構和注意力類型進行實驗,發佈任何中間模型,並在我們的博客上寫出任何發現。

GPT-Neo模型是在Tensorflow-mesh中構建的,這將使他們能夠使用同步的模型和數據並行來擴展到GPT-3和更大的規模。

據Eleuther AI稱,他們已經建立了大部分的模型,訓練了GPT-2大小的模型,並實施了幾個實驗性的架構。

目前的代碼庫應該能夠擴展到GPT-3規模的模型。

而他們接下來的步驟,將是正在努力完成GPT-2規模的模型複製。

「到目前爲止,2 們得到的單步訓練的最大模型是200B參數。」

GPT3: 一般人玩不起

6月,OpenAI發表了一篇論文,詳細介紹了GPT-3,這是一個機器學習模型,在一些自然語言基準上取得了強大的效果。在1750億個參數——模型從歷史訓練數據中學習的部分——它是同類模型中最大的模型之一,也是最複雜的模型之一,能夠進行原始類比,以某種風格寫作,甚至完成基本代碼。

與GPT-3的前身GPT-2和GPT-1相比,OpenAI選擇不將模型或訓練數據集開源,而是選擇通過商業API提供前者。該公司選擇將GPT-3獨家授權給微軟,進一步縮減了訪問權限,而OpenAI與微軟有業務關係。

微軟已經向OpenAI投資了10億美元,並建立了一臺Azure託管的超級計算機,旨在進一步推動OpenAI的研究。

來看下OpenAI的定價策略。

自由探索Explore版 (我等):可以免費使用3個月,或者10萬token,哪個先到按哪個算,佔着不用可不行。

Create版(普通用戶): 100美元一個月,200萬token每月,超出的部分1k token按8美分計算;

Build版(VIP): 400美元一個月,1000萬token每月,超出的部分1k token按6美分計算;

Scale版(尊享版):如果你是也就是生產級的大規模用戶,聯繫官方就好,有專人服務。

這個200萬token,能有多少字呢?大約相當於3000頁的文本。

這樣說可能還是不直接,舉個例子,莎士比亞全集是大約有90萬個單詞,折算到token的話大概能有120萬。

貧窮使人進(fu)步(ke)。

現在,一些人開始在開源中重新創建GPT-3,但可能目前最值得期待的就是GPT-Neo了。

關於Eleuther AI

Eleuther AI是一個由研究人員組成的草根集合,致力於開源人工智能研究。

Connor Leahy,Leo Gao和Sid Black三人聯合創立,於去年11月宣佈推出GPT-Neo的開源項目,該項目基於GPT系列的設計原理,旨在復現GPT系列的各種項目。

其中Sid是目前世界上最牛的TPU黑客之一。

不過,也有人也認爲這夥人炒作太多!

「據我所知,他們正在大肆宣傳他們無法兌現的誇大其詞。」

「例如,他們在OpenAI宣佈幾天後就運出了一個DALL-E repo,這是壞的,而且由於他們的架構不能擴展,他們已經把他們的GPT-3複製宣稱走回了複製1.5B。」

項目地址:https://github.com/EleutherAI/gpt-neo