2020國際機器翻譯大賽:火山翻譯力奪五項冠軍
在11月下旬結束的自然語言處理頂級學術會議EMNLP2020上,國際機器翻譯大賽(WMT20)公佈了賽事最終結果,來自字節跳動火山引擎旗下的火山翻譯(Volctrans)在39支參賽隊伍中殺出重圍,以顯著優勢在「中文-英語」語向翻譯項目上拿下了冠軍。
此外,火山翻譯團隊還拿下了「德語 -英語」和「德語-法語」語向機器翻譯項目的冠軍,更斬獲了平行語料過濾對齊項目普什圖語和高棉語的兩項第一。
39支隊伍角逐國際頂級機器翻譯大賽WMT
國際機器翻譯大賽(WMT)由國際計算語言學協會 (ACL) 舉辦,是全球學術界公認的國際頂級機器翻譯比賽,也是各大科技公司、頂尖院校與學術機構展示自身機器翻譯實力的較量舞臺。
自2006年至今,國際機器翻譯大賽(WMT)已經成功舉辦15屆,本屆比賽共有39支隊伍參賽,包括微軟、Facebook、Google DeepMind、騰訊、小牛翻譯、華爲、滴滴等實力雄厚的參賽團隊。
組委會根據中英、英中、英德等22個不同翻譯任務提供測試數據集,並引入科學的語言專家人工評估流程。每個參賽系統首先由多名經驗豐富的語言學家進行評估,然後對最終分數進行標準化加權,最後進行排名。整個評估過程歷時四個月,評價結果有非常高的置信度。
語言專家評估得分第一 火山翻譯拿下「中文-英語」語向冠軍
歷年比賽中,「中文-英語」語向的翻譯任務都是參賽隊伍最多、競爭最爲激烈的機器翻譯任務之一,今年更勝往年。
火山翻譯團隊參加了非受限場景的比賽,也就是在給定測試集的情況下,可以使用任何數據和方法探索翻譯效果極限的比賽方式,組織方也引入了四個權威的在線機器翻譯商業系統(Online-A、G、Z、B)作爲對比,這也是最能體現翻譯團隊數據和算法綜合能力的場景。在人工評估中,火山翻譯團隊(Volctrans) 力壓羣雄,以明顯的優勢奪得了冠軍。
(圖:WMT2020中英翻譯前幾名系統得分。Ave.z代表人工評估標準化分數,也是目前機器翻譯最受認可的指標。)
相比「中文-英語」,「德語-英語」在WMT比賽上是傳統項目,也是歐洲國家最關注的語向。在最後的人工評價中,火山翻譯依然表現出色,取得了第一名的成績。國際機器翻譯大賽組委會給出了很高的評價,“作爲新的參與者,火山翻譯表現尤爲出色(particularly well),超越了很多傳統隊伍”。
復旦大學計算機學院教授、EMNLP2021大會程序主席黃萱菁表示:“WMT是非常硬核的比賽,火山翻譯取得了出色成績。火山翻譯的LightSeq、mRASP等技術讓人眼前一亮,機器翻譯有廣闊的發展空間,非常期待火山翻譯爲機器翻譯的技術研究和產品應用探索更多可能性。”
領先的背後:火山翻譯致力於打造前沿研究、產品研發和用戶反饋的閉環
火山翻譯(Volctrans)是由字節跳動計算機研究科學家、工程師、產品經理、產品運營和語言專家組成的專業團隊研發,其基於自主研發的機器學習技術,積累了百億多種語言語料,已支持超過50個語種、2500個語對之間的互譯,翻譯效果和速度業界領先。
(圖:火山翻譯官網。 體驗火山翻譯,並瞭解更多產品能力。)
目前,火山翻譯具備文本翻譯、語音翻譯、圖像翻譯、語種識別四種能力,在辦公、娛樂、新聞等場景表現優異。
基於這些能力,火山翻譯推出了一系列形態多樣的產品與服務,包括機器翻譯雲服務、智能視頻翻譯、智能同傳、翻譯瀏覽器插件等。此外,火山翻譯支持API、SDK、私有部署等多種接入方式,且支持垂直領域的快速模型定製,能夠滿足不同羣體和不同行業的翻譯需求。
在視頻翻譯場景,火山翻譯提供簡單高效的視頻“轉寫-打軸-翻譯”全流程服務,輕鬆聽譯、智能打軸、高效編輯、專業審校,集四大能力於一身,幫助創作者輕鬆高效地應對跨語言視頻創作。
在語音翻譯領域,火山翻譯的智能同傳技術也表現卓越,能夠根據現場發言提供高品質、低延時的實時語音識別字幕結果,同時提供人工字幕保障方案,讓會議現場以及直播字幕更精準流暢。
火山翻譯的技術來源於字節跳動團隊多年機器學習和自然語言處理領域的深耕。團隊擁有百餘項技術發明專利,在人工智能頂級國際學術會議發表50餘篇學術論文。在機器翻譯技術上更是獨創了mRASP多語言預訓練算法,把幾十種語言語料融合在一起訓練,獲得的模型在具體語對上微調取得了44個語對的業界最佳性能,整體效果力壓Facebook研發的mBART方法。同時,火山翻譯研發的LUT和COSTT語音到文本翻譯算法,從語音輸入(例如英語)可以直接輸出目標語言文字(例如中文),減少了錯誤累積,在效果上取得了業界領先。
字節跳動傑出科學家、人工智能實驗室總監李磊稱:“火山翻譯核心優勢在打造前沿研究、產品研發和用戶反饋的閉環,研發團隊分佈全世界多個國家,工作中也在使用自己打造的產品來跨語言溝通,在迭代中快速進步。”
火山翻譯團隊還研發了多項機器翻譯前沿技術,目前已經集成到火山翻譯系列產品中,例如鏡像式生成模型MGNMT、CTNMT算法、交互式翻譯算法CAMIT、膠囊翻譯網絡、並行翻譯算法PNAT和GLAT等。火山翻譯還採用了自研的高性能序列推理引擎LightSeq,推理速度業界最快,比原生系統提高10倍,可以達到每秒兩萬詞的翻譯速度。
李磊表示:“火山翻譯已經爲飛書、今日頭條等多款海內外產品提供穩定和高質量的翻譯服務,每天處理數億次翻譯請求,爲來自全球的過億用戶羣體提供優質的翻譯體驗。未來,火山翻譯希望爲更多用戶提供服務,幫助用戶更高效地實現國際信息無障礙交流。”