彭博開發BloombergGPT 提供專於金融AI資訊服務
美國新聞業網站尼曼實驗室(Nieman Lab)報導,彭博3月31日發表研究論文詳述BloombergGPT的開發。據彭博介紹,BloombergGPT是「一個新的大規模生成式AI模型。這個大型語言模型(LLM)專門鎖定範圍廣泛的金融資料來訓練生成,目的爲了支援多元化的金融產業自然語言處理(NLP)任務集」。
彭博表示,近期以大型語言模型爲基礎的人工智慧發展,已在許多領域展示出令人振奮的新應用;但金融領域因其複雜性及具有專門術語,有必要有專屬模型。因此BloombergGPT的推出,代表將聊天機器人這項新科技開發應用到金融產業的第一步。
彭博指出,BloombergGPT將協助其改善現有金融相關自然語言處理的任務,例如文本情感分析、命名實體辨識(NER)、新聞分類、回答問題和其他功能。此外,它也創造新機會來排列可從彭博終端機取得的巨量資料,以提供客戶更好的協助。
至於BloombergGPT的訓練規模,彭博表示它的語料庫有7000億餘個token(字詞碎片)。相較之下,熱門聊天機器人ChatGPT的開發公司OpenAI在2020年推出的模型GPT-3,訓練的語料庫則約有5000億個token。
根據彭博說法,BloombergGPT的語料庫中,有3630億個token取自彭博自有金融資料,也就是來自彭博終端機的資料庫,彭博號稱這是「至今最大的特定領域資料集(dataset)」;其餘3450億個token則是取自其他來源的通用資料集。
彭博還說,訓練資料分爲財金類FinPile和一般The Pile兩類。其中FinPile包括彭博檔案庫中的各類英文金融文件,如新聞文章、公告、新聞稿、網頁內容和社羣媒體資料,以及彭博記者撰寫的新聞以外所有的新聞來源。
至於The Pile則是龐雜的語料庫,來源從YouTube的畫面擷取、文藝數位化的古騰堡計劃(Project Gutenberg)到AI訓練常見的安隆公司(Enron)電郵快取。
究竟BloombergGPT能夠如何應用?尼曼實驗室的文章表示,按照其訓練原理,它應該具有像ChatGPT的功能,但此外也能處理與彭博需求更相關的任務,例如將自然語言指令翻譯成彭博查詢語言(Bloomberg Query Language)終端機的使用者偏好功能。
BloombergGPT也能爲新聞文章提議具有彭博新聞風格的標題。彭博還說,BloombergGPT更能勝任回答與商業有關的提問,無論是有關文本情感分析、分類、資料擷取或任何其他任務。