AI數據荒下的創業衆生相:盜用GPT-4生成數據訓練模型,引發投資人擔憂
智東西編譯 長頸鹿編輯 李水青
智東西4月16日消息,據外媒The Information 4月15日報道,在AI領域,許多初創公司開發的聊天機器人實際上是建立在OpenAI等大型企業所提供的數據和技術基礎之上的。這些低成本的服務能夠在某些程度上模仿GPT-4、Llama的性能,但這種做法可能違反了這些科技強企的使用要求。不僅如此,這種低成本的模仿還有可能對AI強企的市場份額和收入產生威脅。
AI巨頭們自身也難逃版權糾紛,一些未經許可的數據使用引發了較多爭議和訴訟。但好在行業整體版權意識有所轉勢,OpenAI和谷歌帶頭與出版商和網站達成了數據的授權協議。
此外,在當下如此複雜的市場競爭中,投資者們也有着自己的考量。他們即希望看到AI行業的快速進步,又不願支持初創公司在技術研發中出現“偷工減料”的行爲。因爲他們擔心這些違反規則的行爲可能會對初創公司的長期可持續性和聲譽造成負面影響。
一、AI公司創業新路子:用GPT-4生成內容訓練模型
開發者利用OpenAI最先進的模型GPT-4作爲資源,來幫助加速他們的研究和開發過程。他們會向模型提問,來獲得有關特定問題的洞見和建議。比如 :這行代碼有什麼問題?然後利用答案來改進他們自己的模型。
一位幫助開發者構建對話式AI的創始人估計,他的客戶中約有一半從OpenAI的GPT-4或Anthropic的Claude模型中生成了一些數據,並用這些數據改進了自己的模型。
許多開發者無需從頭開始訓練模型。小規模模型的開發過程通常是基於免費提供的流行開源模型,如Meta或Mistral AI的開源模型。然後,他們再通過加入OpenAI模型的答案,使這些小規模模型得到顯著的改進。
對於某些公司來說,違反明文規定或潛規則的風險可能是值得的。在競爭激烈的生成式AI領域,獲取高質量數據用於訓練或完善模型至關重要。任何一家AI初創企業都瞭解如果缺乏數據來源用於訓練,就會落後於人。
即使是大型科技公司,也無法抵擋這樣“便利的”誘惑。據《泰晤士報》報道,這方面的例子包括谷歌轉錄YouTube視頻用於訓練其AI模型以及Meta僱用非洲承包商總結受版權保護的書籍來訓練AI模型。此外,彭博社報道了一則Adobe公司的消息,他們利用初創公司Midjourney提供的AI生成的照片訓練自己的圖像生成軟件Firefly。
據The Information報道,去年,谷歌的一位高級AI工程師在對該公司使用OpenAI的ChatGPT數據來訓練谷歌自己的模型表示擔憂後,辭職以示抗議。
但有些開發者不願主動承認自己對於開源模型的使用情況。一旦這種行爲被公之於衆時,他們的公司就會陷入尷尬的局面。例如巴黎的Mistral AI和北京的零一萬物,在信息泄露事件之後,纔不得不承認他們確實使用了Meta的開源模型Llama 2作爲自己產品開發的基礎。
隨着越來越多的公司開發出源於其他模型的模型,它們可能會變得難以區分。這可能會蠶食OpenAI等領先企業的競爭優勢,當顧客選擇更便宜、更方便的模型,而不是最先進、最昂貴的模型時,它們在價格上將展開競爭。
二、阿爾特曼放寬ChatGPT使用限制,OpenAI此前深陷版權糾紛
OpenAI和Anthropic、谷歌等其他領先的AI公司一樣,在技術上禁止這種行爲。儘管如此,OpenAI首席執行官山姆·阿爾特曼(Sam Altman)在一次會議上與初創企業創始人的對話中提到,小型企業創始人可以在一定程度上使用OpenAI的技術。
雖然阿爾特曼的回答讓在場的一些創始人鬆了一口氣,但如果這種做法損害了OpenAI的發展,他們隨時可能改變主意。目前還不清楚,OpenAI、谷歌、Anthropic和其他大型開發商會在多長時間內允許較小的競爭對手有效複製他們的AI。
不過,初創公司利用OpenAI數據所做的事情與OpenAI和其他領先的AI開發商在訓練自己的模型時所做的事情有相似之處。OpenAI的首席技術官米拉·穆拉提(Mira Murati)上個月的一次採訪中,在回答有關其同事是否使用了谷歌旗下的YouTube以及Meta Platforms旗下的Facebook和Instagram的數據來訓練Sora時,表現得有些含糊其辭。
如果OpenAI確實使用了這些數據,也不足爲奇。紐約時報最近的一篇報道描述了OpenAI如何創建語音識別工具Whisper來轉錄YouTube視頻,以改進其GPT-4 模型。The Information此前曾報道,該公司秘密使用YouTube數據訓練其之前的AI模型。本月早些時候,YouTube首席執行官尼爾·莫漢(Neal Mohan)表示,他不會同意OpenAI使用YouTube視頻來開發像Sora這樣的模型。
這引發了新聞出版商和一些作家的指責。去年12月,《紐約時報》起訴OpenAI及其最大支持者微軟,指控它們在訓練模型時非法複製了紐約時報的文章。訴訟稱,OpenAI的聊天機器人可以產生完整紐約時報內容的輸出。
OpenAI在迴應中辯稱,它曾試圖與新聞出版商建立合作關係,其訓練行爲是美國版權原則“合理使用”所允許的。
儘管如此,OpenAI和谷歌都與包括Axel Springer在內的出版商達成了價值數百萬美元的授權協議,並與Reddit等大型網站達成了更大的協議。
但並非每個AI開發商都遊走在“灰色地域”。Databricks公司的首席科學家喬納森·弗蘭克爾(Jonathan Frankle)表示,該公司在開發強大的開源大型語言模型時,並沒有依賴競爭對手的作品。Anthropic的一位發言人也稱,該公司沒有利用其他模型的輸出結果來訓練自身大模型。
三、投資者不願初創公司“走捷徑”,合成數據或成訓練新來源
一些投資者對“偷工減料”或開發出與競爭對手無異的技術的公司感到不舒服,因爲這些公司實際上並沒有自己真正的技術。投資者們更希望看到AI領域的快速進步和比同行更好的科研成果。
一些籌集了數億美元資金的公司甚至不承認使用了其他AI公司的開源模型。這種情況更加劇李投資者的不滿,認爲公司的誠信有問題。門羅風險投資公司(Menlo Ventures)的董事總經理馬特·墨菲(Matt Murphy)解釋道,在一個新的生態系統中,沒有一套明確的規則,就會出現這種情況。
合成數據是一種替代方案,公司可以用自己的AI模型生成數據,而不是獲取線上的內容。例如,谷歌和Meta就表示,它們使用合成數據來建立模型,以解決幾何問題和生成計算機代碼。由於AI能夠生成這類數據,因此它避免了使用人工生成的內容所帶來的許多法律問題。
與此同時,數十家AI初創公司正在獲取醫療保健和律師事務所等行業的私人數據,以開發特定用途的模型。
結語:生成式AI模仿風波不斷,OpenAI持寬容態度
許多初創公司開發的AI大模型很可能使用了OpenAI和其他公司的數據,儘管這些初創公司正試圖削弱OpenAI的實力。這種做法已成爲了行業內的公開秘密,導致了技術同源但價格減半的競爭態勢。
雖然OpenAI等初創公司對於小規模使用情況保持寬容的態度,但一些公司仍不主動披露他們在開發過程中使用了他者的技術。他們認爲承認可能會給公司帶來風險。
不管怎樣,訓練大模型數據的緊缺和日益增長的競爭壓力仍在增加,目前合成數據仍在探索階段,我們期待AI公司更前沿的模型訓練和數據獲取。
來源:The Information