NVIDIA宣佈推出Jarvis可互動的對話式人工智慧框架
(圖說:NVIDIA Jarvis框架提供開發人員最先進且已預先完成訓練的深度學習模型和軟體工具,以建立對話式AI服務。圖/業者提供)
NVIDIA 宣佈推出 NVIDIA Jarvis 框架,提供開發人員取得最先進且已預先完成訓練的深度學習模型和軟體工具,以建立可以輕鬆用在各產業和領域、具互動性的對話式人工智慧 (AI) 服務。
全球每天產生出數十億個小時的語音通話、網路會議和串流媒體廣播影片內容,NVIDIA Jarvis 模型提供高精準度的自動語音辨識,以及高超的語言理解能力、多種語言的即時翻譯和全新的文字轉語音等功能,用以建立能夠表達豐富內容的對話式 AI 代理程式。
利用 GPU 加速技術的端到端語音管道,可以在 100 毫秒內完成動作,這個聆聽、理解到產生迴應內容的速度,比人類眨一下眼睛還要更快,並且可以部署在雲端、資料中心或邊緣,瞬間擴大觸及到數百萬名用戶。
NVIDIA 創辦人暨執行長黃仁勳表示,對話式 AI 在很多方面都是終極的 AI。深度學習在語音辨識、語言理解及語音合成的突破性成就,已經發展出許多優秀的雲端服務。NVIDIA Jarvis 將這種最先進的對話式 AI 技術用在雲端以外的地方,讓客戶可以在任何地方託管 AI 服務。
NVIDIA Jarvis 將帶動開發過去無法做到的新一波語言類應用程式,提高人機互動程度。它爲開發數位護理師等服務打開了大門,協助他們全天不間斷地監控病人,減輕讓醫務人員疲於奔命的工作負擔;線上助理可以瞭解消費者的需求並推薦最佳產品;即時翻譯可以改善跨境工作場域的協同合作,觀衆還能用自己的母語觀看直播內容。
NVIDIA 使用超過十億頁的文字、六萬小時的語音資料,並以不同的語言、口音、環境和術語,耗費數百萬 GPU 小時來訓練模型,纔開發出達到具世界級水準的 Jarvis 框架。開發者首次可以使用 NVIDIA TAO 框架,輕鬆在任何系統上,爲各種任務及產業訓練、調整及最佳化這些模型。
開發人員可以從 NVIDIA 的 NGC 目錄中挑選一個 Jarvis 已預先訓練好的模型,用自己的資料與 NVIDIA 遷移學習工具套件對其進行微調和最佳化,以在即時語音服務中達到最高處理量與最低延遲,只要幾行程式碼就能輕鬆部署該模型,無需具備深厚的 AI 專業知識。
自去年5月推出 Jarvis 早期試用計劃以來,已經有數千家公司要求加入。早期試用者當中包括美國電信巨頭 T-Mobile,該公司希望透過 AI 進一步加強旗下的機器學習產品,運用自然語言處理能力,提供即時洞察和推薦內容。
T-Mobile 產品與技術部門副總裁 Matthew Davis 表示,有了 NVIDIA Jarvis 服務,再利用 T-Mobile 的資料進行微調,我們將開發出有助於即時解決客戶問題的產品。在評估了多款自動語音辨識解決方案後,T-Mobile 發現 Jarvis 能夠提供高品質且極低延遲的模型,創造出客戶喜愛的使用體驗。
NVIDIA 也與 Mozilla Common Voice 合作。Mozilla Common Voice 是一個開源語音資料集,提供新創公司、研究人員及開發人員用於訓練語音類應用程式、服務和裝置。Common Voice 是全球規模最大的多語言、公領域的語音資料集,內有超過九千小時、60 種語言的語音資料。NVIDIA 使用 Jarvis 和該資料集來開發預先訓練好的模型,然後將它們免費提供給該社羣使用。
Mozilla 執行董事 Mark Surman 表示,我們推出 Common Voice,以教導機器真實的人們是如何用他們獨一無二的語言、口音和語言模式來說話。NVIDIA 與 Mozilla 有共同的願景,就是實現語音技術的普及化,確保它反映出構成網際網路的人們和聲音的多樣性。
NVIDIA 的對話式 AI 工具下載量已經突破 4.5 萬次。這些工具還能搭配數百個合作伙伴的技術,並支援主要的軟體函式庫,讓全球開發者都能夠開發創新且直觀的對話式 AI 應用程式。
本身是 YouTuber,也是 PythonProgramming.net 創辦人的 Harrison Kinsley 表示,Jarvis 提供衆多預先訓練好的模型,讓它成爲一個真正的對話式 AI 端到端工作流程,從自動語音辨識、自然語言處理,再到文字轉語音。這些模型的運行速度都快得驚人,最佳化程度也極佳,開發人員也可以輕鬆使用 API,搭配適用於許多對話式 AI 任務的範例。
新公佈的功能將於第二季在進行中的 NVIDIA Jarvis 公測計劃開放使用。