☰

拒絕“劣質”訓練數據，MIT研究團隊推出數據集審查工具DPExplorer

最近，麻省理工學院（MIT）研究團隊及其合作者在科學期刊 Nature Machine Intelligence上，以 “A large-scale audit of dataset licensing and attribution in AI” 爲題，發表了一篇研究論文。

論文中，研究團隊宣佈開發了一個名爲 “Data Provenance Explorer” （簡稱：DPExplorer）的結構化審查工具，過自動生成詳細的數據來源卡片，幫助人工智能從業者選擇更適合其大模型的訓練數據，以便提高大模型準確性、減少偏差。

研究過程中，研究團隊對1,800多個文本數據集進行了系統審查，發現約70%的數據集缺乏必要的許可信息，50%的數據集包含錯誤信息。通過DPExplorer這一工具，研究團隊將無法驗證的信息從72%降至30%，明顯降低了數據的偏差，有效提高了數據的可追溯性和透明度。

有觀點認爲，該研究爲大模型的訓練提供了更可靠的數據基礎，在推動 AI 領域的法律和倫理研究方面邁出了關鍵一步。

去年10月，來自麻省理工學院（MIT）、Cohere for AI以及其他11個機構共同發佈了Data Provenance Platform（數據溯源平臺），旨在解決AI模型訓練數據集的來源和使用透明度不足的問題。

數據是人工智能三大要素之一。隨着人工智能的興起，大量數據標註公司涌現，以滿足日益增長的市場需求。然而，正確性和真實性關係到大模型訓練的質量，甚至能力水平，所以不可忽略。

相關資訊