對話司馬遷、打造專屬美妝顧問--中研院馬偉雲博士讓AI更接地氣

中研院資訊科學研究所副研究員馬偉雲博士 圖/作者提供

當出門需要妝扮一下自己、當閱讀古典小說《紅樓夢》時需要先了解人物間的關係,或是想和司馬遷進行一場超時空的史記對話,只透過搜尋已不能滿足現代讀者的需求,而中研院資訊科學研究所副研究員馬偉雲博士帶領的中文詞知識庫小組(CKIP Lab,簡稱詞庫小組),已研究出一套「更接地氣」的解決途徑。

詞庫小組開發出的「美妝保養虛擬顧問」,讓使用者在Line就可以得到專業諮詢,例如。可以先選取一位自己專屬的美妝顧問,然後問她,「我是油性皮膚,該用什麼類型的保養品」,虛擬顧問便會提供專業回答,這些答案都是透過大型語言模型分析出來的結果,比起在搜尋引擎上得到的答案,會更具體、可靠。

大型語言模型分析結果展示,美妝保養虛擬顧問對話圖示 圖/作者提供

馬偉雲說,「以往是「一個任務、一套系統」,但現在機器透過深度學習(Deep Learning)已經可以跟我們不限主題、天南地北的聊天,不再只是插科打諢」,他展示團隊研發的司馬遷對話系統,讓2000多年前、西漢時代出生的太史公,與我們進行一場類似穿越劇式的超時空知識對話。讀者可以不必讀完整部史記,就可以讓司馬遷自己說出全書精華,還包括個人的心路歷程等等。

透過AI與歷史人物對話-以跟司馬遷聊史記爲例 圖/作者提供

除了聊天之外,大型語言模型也可以做到更深度的人物關係圖譜,馬偉雲舉《紅樓夢》的例子,紅樓夢是一部經典小說,但豪門大院裡的人物龐雜、關係極其繁複,透過關係圖譜(GraghRAG)分析,可以清楚看出,書中主角賈寶玉與首席丫鬟襲人的關係最爲密切,成爲理解這本書很重要的一項工具。

馬偉雲在大學及研究所學的是資工,後來接觸到自然語言處理(Natural Language Processing,NLP),開始着迷於文字及語言的奧秘。2014年在美國哥倫比亞大學取得電腦科學博士回國後,便一頭栽進自然語言的研究,問他10年來最開心的事,他說,「推廣開源、做很好的研究、很實在的系統和工具,運用在很好的地方,讓更多人使用」。

聯合報系有着70多年完整新聞報導文字、圖片,馬偉雲認爲,「這是很珍貴的資產」,他說,雖然坊間都可搜尋到相關新聞或資訊,但是透過長時間的資料蒐集分析,累積起來就是加值,「長時間累積之後,就是價值」,這是聯合知識庫最大的優勢。

他舉例說,如果查詢過往蔡英文、馬英九兩個前總統的新聞,使用他們開發的「輿情分析系統」,從每句的結構樹中找出字詞之間的關係,建立關鍵字與相關詞搭配的資料庫;並且利用廣義知網 (E-HowNet) 這套自建的繁體中文詞知識庫來分析該關鍵字相關句字的情感分佈。這樣我們可以看出一段時間內,蔡英文前總統與誰的互動最多、新聞的正負面評價如何,也可以從讀者留言訊息裡,看到大家最關心或是討論最多的事,而進行更多的深度新聞處理。

網際網路產生大量資訊,但缺乏有效的自動化分析方法及技術足以快速處理,達到智慧型的資訊處理、知識爲本的訊息處理,成爲詞庫小組研究的核心焦點。馬偉雲的研究團隊,正進行五個主要研究方向:深度學習、知識表達、自然語言理解、知識擷取、聊天機器人,每一項都在落實接地氣的使命,讓系統更有知識含量、更方便快速使用。

馬偉雲說,我們現在最大的對手,其實是更大的公司,例如Google、Meta等等,他們擁有豐富的算力,但真正在比的不是最好的系統,而是能夠落實在應用上,「需要更新與獨特的idea」,並希望有更多學界與企業願意一起合作,纔會讓所有的研究被更多人使用,促成社會進步。