上海發佈“語料運營平臺1.0”,可實現語料數據“採、洗、標、測、用”

2024年7月6日 ,“2024世界人工智能大會語料主題論壇”在上海舉辦。會上,多家機構聯合發佈了“語料運營平臺1.0”以及一批語料產品。此外,論壇還發布了《語料庫建設導則》。50餘家單位在會上聯合發起語料生態服務大模型可持續發展倡議,呼籲各方攜手爲大模型產業發展持續提供高質量語料。

據介紹,“語料運營平臺1.0”可實現面向語料數據“採、洗、標、測、用”五位一體的工具鏈能力。《語料庫建設導則》則明確了從原始數據到語料成品的方法論,並針對金融、生命健康、教育等行業語料發佈技術白皮書,進一步指引相關語料數據的採集、使用。

語料數據是大模型訓練的關鍵“燃料”,高質量的語料對於大模型在各行各業的應用至關重要,有助於大模型更好地適配實際應用場景,加快實現人工智能賦能千行百業的目標。

近年來,爲滿足大模型發展對高質量、大規模、安全可信語料數據資源的需求,上海市在多個方面採取了一系列舉措,包括在共建共享方面,組建大模型語料數據聯盟,鼓勵多元主體共同推動高水平語料數據要素建設;在基礎設施建設方面,激活數據要素潛能,開源一系列高質量的語料資源;在平臺建設方面,建設市場化運營的語料平臺,打造大模型語料的“超級工廠”。

上海市政府副秘書長莊木弟表示,“上海將厚植語料應用場景,圍繞大模型訓練需求,保障多知識、多模態、標準化的高質量語料數據供給,賦能大模型行業應用落地。”