海納百川》AI對訓練資料的飢渴(張瑞雄)

OpenAI、谷歌和Meta等主要科技公司正採取各種手段來大量收集網上數據以訓練他們的模型。圖/本報資料照片

在開發最先進AI系統的競賽中,OpenAI、谷歌和Meta等主要科技公司不惜採取各種手段來大量收集網上數據,以訓練他們的模型。這包括YouTube影片和侵犯版權地從互聯網上抓取內容,甚至考慮收購出版社以獲取有版權保護的作品。但是這些數據收集做法往往違反公司政策和版權法,引發了道德問題。

AI的快速進步,特別是像ChatGPT這樣的大型語言模型,創造了對數據的無法滿足的需求。一個AI模型接受的訓練數據越多,其表現就越好。這導致了一場競相累積越來越多文字、圖像和其他數位內容的競賽,領先的模型現在利用數萬億的「tokens」(單詞或單詞片段)來訓練。

科技巨頭已經耗盡了許多現成的高品質數據來源,如維基百科和在線書籍及文章。因此他們已轉向更不常規且可能有問題的方法,以獲取開發最新AI模型所需的數據。例如OpenAI開發了一個語音識別工具,用來利用超過100萬小時的YouTube影片,儘管有人擔心這可能違反YouTube的服務條款,這些資料隨後被用於訓練OpenAI的GPT-4模型,這是目前最先進的語言模型之一。

同樣地,谷歌也一直在轉錄YouTube影片,這可能侵犯了影片創作者的版權。該公司最近還擴大了隱私政策,允許它使用更多來自於Google Docs和Google地圖的數據進行AI開發,引發了侵犯隱私的擔憂。

科技公司的數據收集做法引發了重大的道德和法律問題,創作者、藝術家和出版商已經開始反擊,對未經許可或補償使用他們的版權作品提起訴訟。如《紐約時報》起訴了OpenAI和微軟,指控他們在訓練AI時使用了受版權保護的新聞文章,並主張這不屬於合理使用。也已有超過一萬個個人和組織向美國版權局提交了有關AI模型使用創作作品的意見,突顯了AI發展與知識產權之間日益加劇的衝突。

意識到依賴現有網上數據的侷限性,科技公司也在探索開發「合成數據」的可能,由AI自己生成的文本、圖片和其他內容,這種做法的目的是減少對有版權材料的依賴,並幫助AI技術保持快速進展。但是這種方法也有問題,因爲AI生成的數據可能存在偏見、不一致性和其他侷限性,從而影響其在訓練中的實用性。

爲了AI優勢地位的競爭,科技巨頭不惜踐踏道德和法律邊界,以追求越來越強大的系統。但建議科技公司應該採取更主動和透明的方式,來解決其數據收集做法的道德影響。這可能包括與創作者接洽、資助支持創作者的計劃,以及制定優先考慮道德和負責任的數據收集與使用的內部政策和準則。

國內目前國科會的TAIDE也應該注意訓練資料的版權問題,未來AI的成功將取決於它是否能夠妥善應對這些複雜的道德和法律挑戰,必須找到一種平衡和可永續的方法,AI才能繼續發展,同時也能維護社會整體的權益。(作者爲臺北商業大學前校長)

※以上言論不代表旺中媒體集團立場※