立委憂AI繁體中文資料少 廖俊智:能開放盡量開放

多名立委關注AI(人工智慧)的繁體中文資料不足,尤其少於簡體,恐影響文化發展。中研院長廖俊智表示,不牽涉智財權等法規的部分,會朝開放努力,儘量釋出資料來訓練AI。

中研院長廖俊智今天到立法院教育及文化委員會做業務概況報告,包括民進黨籍立委陳秀寶、中國民黨籍立委葛如鈞、洪孟楷等多人,質詢時都提及對AI快速發展的擔憂。

陳秀寶提到,生成式AI需要大量文本資料做訓練,但目前繁體中文的資料庫相對比較小;加上臺灣的孩子正受抖音、小紅書等短影音平臺強勢入侵,接收大量簡體中文資訊。中研院應協助整合繁體中文的語言資料庫,避免繁體中文資料大幅落後簡體中文。

對此,廖俊智認同若沒有大量繁中資料訓練AI,對文化發展恐有負面影響。中研院正在思考儘量開放相關資料,院內不涉及智財權的資料,會盡量立即、馬上開放,未來也會努力排除法規的限制,儘可能開放資料給大型語言模型訓練。

葛如鈞指出,日本政府最近採取大膽作法,允許AI使用任何資料,不做任何保護,藉此儘可能提高日文資料數量,詢問臺灣是否適合比照?廖俊智說,日本的作法相當前瞻,臺灣還要深入研究利弊得失,擷取各國優點並因地制宜。

洪孟楷問及臺灣對AI資料的控管,適合朝向美、日的開放式,還是歐盟的相對限縮制?廖俊智表示,很難說一定要往那個方向走,關鍵是以人爲本,讓AI發展對臺灣社會有正面貢獻,併兼顧個人隱私、智慧財產權、公務機關機密性。他強調,每一個國家狀況都不一樣,需要仔細考量。