一知智能全面升級跨媒體多模態人機交互中樞
近日,第二屆中國(杭州)國際智能產品博覽會暨2020全球人工智能大會在杭州國際博覽中心舉行。
在一知智能展位前,中國工程院院士潘雲鶴駐足了很久。當他聽完企業介紹後與同行的杭州市科技局局長趙喜凱說:“這種跨媒體多模態人機交互產品,是支撐未來機器與人多維度、跨媒體交互,建設‘數字中國’的大勢所趨。”
一知智能是誰?鮮爲人知,畢竟它是家成立僅3年的年輕企業。公司是一家專注於人機交互的人工智能企業,通過領先的NLP(語言處理)技術深度服務企業營銷與客服場景。會議現場,一知智能正式上線跨媒體多模態人機交互中樞平臺。簡單點說就是,讓機器人能眼觀六路、耳聽八方,不僅能說會道,還能讀懂你的脣語,讓機器人有“人的溫度”。
這正契合了浙江大學人工智能研究所的跨媒體多模態人機交互研究方向,潘雲鶴院士認爲,“有很大的應用前景和想象空間”。
你以爲和你說話的客服是小姐姐嗎?NO!那是機器人。
潘雲鶴院士的判斷,源自對技術的理解和對行業的觀察。
所謂跨媒體感知到多模態交互,就是要讓機器像人一樣,擁有眼、耳、口、鼻、手等五感的基本感知。“將語音、視覺、觸控等多種傳感器模態組合,即可形成跨媒體多模態人機交互的基本形態。”一知智能創始人、執行總裁陳哲乾說。
2017年,在各種人工智能比賽上嶄露頭角的陳哲乾、李一夫等人,在金沙江資本的邀請下,組團開啓了創業之旅,並註冊成立了一知智能,寓意“一問便知”。
“多模態交互,能夠讓人類在不同場景下選擇不同的模態組合進行交互,進而從整體上提高人機交互的自然度。此外,不同模態之間還能形成信息互補,豐富機器人的情感和表達。”
據介紹,一知智能跨媒體多模態人機交互的系統框架,包括三個部分:多模態輸入模塊、認知和決策控制環節、輸出模塊。多模態輸入模塊包括麥克風、攝像頭、電流信號等,可對人進行聲紋、人臉、物體、動作、表情等進行識別,而認知和決策控制模塊則通過AI算法對多模態信號進行思考學習,最後再給出決策響應。
基於這些底層技術,浙大·一知人工智能研究中心與微軟亞洲研究院機器學習組合作研發了語音識別引擎、語音合成引擎和虛擬形象引擎,已經讓機器人能眼觀六路、耳聽八方,還能說會道,甚至能讀懂你的脣語。
“你電話另一端的機器人客服,你可以隨意打斷、提問,它都可以對答如流,你以爲是小姐姐嗎?不是,那是機器人。” 陳哲乾說。
現狀是,跨媒體多模態人機交互技術被廣泛應用於呼叫行業。比如,中國移動、中國聯通、中國電信及各大小銀行和大型企業,都在用語音客服。
“一方面是因前置語音導航、語音識別不準等因素,用戶體驗並不好;另一方面,呼叫行業流動性大、培訓成本高,市場需求巨大。”早在2017年,還在浙江大學讀博士的陳哲乾,就看準了這一塊市場。
有沒有一舉兩得的方法,幫員工減負、幫企業提效降本?機器人替代人工無疑是最好的選擇。“機器人沒有情緒,不會出現辱罵客戶的情況,而且能24小時在線,且能做到智能響應。”
比如,將跨媒體多模態人機交互中樞平臺用於電力營銷,機器人可根據參數設置智能判斷哪些用戶欠費,並進行語音提醒:“您好!你是**小區**單元的**嗎?您已欠費***元,請及時繳清電費!”
目前,一知智能每月爲國家電網撥打80萬交費提醒電話,用戶覆蓋全省11家地市、42個縣區。截至2020年9月底,累計催收電費金額超4億元。
多模態人機語音交互還有很多應用場景。比如,快遞司機智能招聘;銀行信用卡逾期提醒;公安反電詐;交警扣分提醒;城管停車管理;智能家居及自助終端……
“我們甚至能克隆你的聲音,你到我們錄音棚來說幾句話,機器就會自動學習你的音色,機器人就會模仿你說話了,完全可以模仿你給孩子講故事,是不是很有趣?”陳哲乾說。
“一個人工客服的成本10萬塊的話,那機器人只需要1萬元,這還僅僅是工資成本,還可以節約場地成本和培訓成本。”
其實,阿里、百度、科大訊飛等企業,都瞄準了人機語音交互領域,但他們做的都是平臺,而一知智能是從底層技術做到具體項目,並擁有自己的核心技術。
“我們的專業就是做自然語言處理的,包括語音識別的準確率和語音理解的準確率,一句話,就是要機器適應人。”陳哲乾解釋說,“你跟小愛同學說,‘小愛同學,我要給**打電話’,它能聽懂,但你說‘我要給**打電話,小愛同學’,機器就聽不懂了,這就是我們要解決的問題。”
爲此,一知智能跨媒體多模態人機交互中樞甚至能適應不同的語境。比如,能聽懂帶口音的普通話,能在嘈雜環境進行對話,甚至能進行多人對話……
目前,一知智能已與阿里、騰訊、華爲、京東、百度等建立商務合作關係,並先後入局物流、水務、稅務、銀行、燃氣等衆多基建工程,還與順豐、獵聘、德邦、建設銀行、中國銀行等幾百家頭部企業有深度合作,公司銷售收入2020年每月增長速度達到30%。
爲了讓語音交互技術擁有更多可能性,陳哲乾和團隊依然在探索如何讓機器人語音更真實自然的答案。