拒絕“劣質”訓練數據,MIT研究團隊推出數據集審查工具DPExplorer
最近,麻省理工學院(MIT)研究團隊及其合作者在科學期刊 Nature Machine Intelligence上,以 “A large-scale audit of dataset licensing and attribution in AI” 爲題,發表了一篇研究論文。
論文中,研究團隊宣佈開發了一個名爲 “Data Provenance Explorer” (簡稱:DPExplorer)的結構化審查工具,過自動生成詳細的數據來源卡片,幫助人工智能從業者選擇更適合其大模型的訓練數據,以便提高大模型準確性、減少偏差。
研究過程中,研究團隊對1,800多個文本數據集進行了系統審查,發現約70%的數據集缺乏必要的許可信息,50%的數據集包含錯誤信息。通過DPExplorer這一工具,研究團隊將無法驗證的信息從72%降至30%,明顯降低了數據的偏差,有效提高了數據的可追溯性和透明度。
有觀點認爲,該研究爲大模型的訓練提供了更可靠的數據基礎,在推動 AI 領域的法律和倫理研究方面邁出了關鍵一步。
去年10月,來自麻省理工學院(MIT)、Cohere for AI以及其他11個機構共同發佈了Data Provenance Platform(數據溯源平臺),旨在解決AI模型訓練數據集的來源和使用透明度不足的問題。
數據是人工智能三大要素之一。隨着人工智能的興起,大量數據標註公司涌現,以滿足日益增長的市場需求。然而,正確性和真實性關係到大模型訓練的質量,甚至能力水平,所以不可忽略。