☰

莆田版GPT-3開源：同等復現預訓練模型GPT Neo，可在Colab上完成微調

新智元報道

來源：Eleuther AI

編輯：小勻

【新智元導讀】GPT-3開源了？Eleuther AI推出的名爲GPT-Neo的開源項目：公開發布的GPT-3同等復現預訓練模型(1.3B & 2.7B)，可在Colab上完成微調。

……當然此 GPT-3非彼 GPT-3。

近日，Eleuther AI在GitHub上推出了一個名爲GPT-Neo的開源項目：GPT-3同等復現預訓練模型(1.3B & 2.7B)，並可在Colab上完成微調。

雖然GPT-Neo與真正的GPT-3比，參數量仍然很小（較大版本也只與GPT-3最小模型的參數量），但開源又免費，仍然得到了「同性好友們」的認可！

項目目前在GitHub上已經得到了近3k的star。

Eleuther AI也表示，未來會進一步開源10B版本和原始大小版本的GPT3模型參數。

「莆田版」GPT-3

在Eleuther AI官網上，他們對GPT-Neo的描述是，「一系列基於變換器的語言模型的代碼名稱，這些模型的風格鬆散地圍繞着GPT架構，我們計劃對其進行訓練和開源。我們的主要目標是複製一個GPT-3大小的模型，並將其免費開源給公衆。」

在這一過程中，我們將對替代架構和注意力類型進行實驗，發佈任何中間模型，並在我們的博客上寫出任何發現。

GPT-Neo模型是在Tensorflow-mesh中構建的，這將使他們能夠使用同步的模型和數據並行來擴展到GPT-3和更大的規模。

據Eleuther AI稱，他們已經建立了大部分的模型，訓練了GPT-2大小的模型，並實施了幾個實驗性的架構。

目前的代碼庫應該能夠擴展到GPT-3規模的模型。

而他們接下來的步驟，將是正在努力完成GPT-2規模的模型複製。

「到目前爲止，2 們得到的單步訓練的最大模型是200B參數。」

GPT3: 一般人玩不起

6月，OpenAI發表了一篇論文，詳細介紹了GPT-3，這是一個機器學習模型，在一些自然語言基準上取得了強大的效果。在1750億個參數——模型從歷史訓練數據中學習的部分——它是同類模型中最大的模型之一，也是最複雜的模型之一，能夠進行原始類比，以某種風格寫作，甚至完成基本代碼。

與GPT-3的前身GPT-2和GPT-1相比，OpenAI選擇不將模型或訓練數據集開源，而是選擇通過商業API提供前者。該公司選擇將GPT-3獨家授權給微軟，進一步縮減了訪問權限，而OpenAI與微軟有業務關係。

微軟已經向OpenAI投資了10億美元，並建立了一臺Azure託管的超級計算機，旨在進一步推動OpenAI的研究。

來看下OpenAI的定價策略。

自由探索Explore版（我等）:可以免費使用3個月，或者10萬token，哪個先到按哪個算，佔着不用可不行。

Create版（普通用戶）: 100美元一個月，200萬token每月，超出的部分1k token按8美分計算；

Build版（VIP）: 400美元一個月，1000萬token每月，超出的部分1k token按6美分計算；

Scale版（尊享版）：如果你是也就是生產級的大規模用戶，聯繫官方就好，有專人服務。

這個200萬token，能有多少字呢？大約相當於3000頁的文本。

這樣說可能還是不直接，舉個例子，莎士比亞全集是大約有90萬個單詞，折算到token的話大概能有120萬。

貧窮使人進（fu）步（ke）。

現在，一些人開始在開源中重新創建GPT-3，但可能目前最值得期待的就是GPT-Neo了。

關於Eleuther AI

Eleuther AI是一個由研究人員組成的草根集合，致力於開源人工智能研究。

Connor Leahy，Leo Gao和Sid Black三人聯合創立，於去年11月宣佈推出GPT-Neo的開源項目，該項目基於GPT系列的設計原理，旨在復現GPT系列的各種項目。

其中Sid是目前世界上最牛的TPU黑客之一。

不過，也有人也認爲這夥人炒作太多！

「據我所知，他們正在大肆宣傳他們無法兌現的誇大其詞。」

「例如，他們在OpenAI宣佈幾天後就運出了一個DALL-E repo，這是壞的，而且由於他們的架構不能擴展，他們已經把他們的GPT-3複製宣稱走回了複製1.5B。」

項目地址：https://github.com/EleutherAI/gpt-neo

相關資訊