人工智能巧解法庭“雞尾酒會問題”有妙方

這是長期存在的“雞尾酒會問題”——站在滿是人的房間裡,手裡拿着飲料,試圖聽清你的同伴在說什麼。

事實上,人類非常擅長在過濾掉其他干擾聲音的同時與一個人進行交流。

然而,也許令人驚訝的是,直到最近,技術還無法複製這種技能。

而這在法庭案件中運用音頻證據時至關重要。背景中的聲音可能會讓人難以確定是誰在說話以及說了什麼,這可能會使錄音毫無用處。

Wave Sciences 的創始人兼首席技術官——電氣工程師基思·麥克爾文(Keith McElveen)在爲美國政府處理一起戰爭罪行案件時對這個問題產生了興趣。

“我們當時試圖弄明白是誰下令屠殺平民。一些證據包含一堆聲音同時發聲的錄音——就在那時我知曉了什麼是‘雞尾酒會問題’,”他說。

“我已經成功地把像汽車聲、空調聲或風扇聲這類噪音從講話中去除掉了,但當我開始試圖從講話中去除講話時,結果不僅是一個非常困難的問題,而且是聲學中經典的難題之一。

“聲音在房間裡來回反彈,從數學角度來講,很難解決。”

他說,答案是運用人工智能,依據聲音最初在房間裡的出處,嘗試找出並篩除所有干擾聲音。

這不僅指可能正在說話的其他人

房間中聲音的反射方式也會造成大量干擾,目標說話者的聲音會被直接和間接地聽到

在一個完美的消聲室——完全沒有回聲的那種——每個說話者配備一個麥克風就足以拾取其所說的內容

但在真實的房間裡,這個問題則需要爲每個反射聲都配備一個麥克風

麥克爾文先生於 2009 年創立了 Wave Sciences 公司,旨在開發一種能夠分離重疊聲音的技術

最初,該公司在所謂的陣列波束成形技術中使用了大量麥克風

然而,潛在商業夥伴反饋稱,該系統在許多情況下需要的麥克風太多,成本過高,無法取得良好效果

麥克爾文先生說:“常見的說法是,如果我們能想出一個解決這些問題的方案,他們會非常感興趣。”

而且,他補充說:“我們知道一定有解決方案,因爲你用兩隻耳朵就能做到。”

經過 10 年的內部資助研究,該公司總算解決了這個問題,並於 2019 年 9 月提交了專利申請。

他們想出的是一種人工智能,其能夠分析聲音在到達麥克風或耳朵之前於房間內的反彈方式。

“我們在聲音到達每個麥克風時進行捕捉,回溯以查明其來源,然後,實質上,我們抑制任何不可能來自該人所在位置的聲音,”麥克爾文先生說。

在某些方面,這種效果類似於相機聚焦於一個主題,同時模糊前景和背景。

“當您只能藉助非常嘈雜的錄音來學習時,結果聽起來不是非常清晰,但仍然令人驚歎。”

該技術首次在現實世界中的一起美國謀殺案中用於法醫領域,它能夠提供的證據被證明是定罪的關鍵。

兩名殺手因殺害一名男子被捕後,聯邦調查局想要證明他們是受一個正在處理子女監護權糾紛的家庭僱傭的。聯邦調查局安排誘騙該家庭相信他們因參與而被勒索——然後坐等觀察反應。

雖然聯邦調查局獲取短信和電話相對較爲容易,但在兩家餐廳的面對面會面則是另一回事。但法院授權使用 Wave Sciences 的這一算法,這意味着音頻從不可受理變成了關鍵證據。

自那以後,包括英國在內的其他政府實驗室對其開展了一系列測試。該公司當下正在向美國軍方推銷此項技術,美國軍方已使用它來分析聲納信號。

麥克爾文先生說,它還可以應用於人質談判和自殺場景,以確保可以聽到對話的雙方——而不僅僅是拿着擴音器的談判者。

去年年末,該公司推出了一款運用其學習算法的軟件應用程序,供政府實驗室用於音頻取證及聲學分析。

最終,其目標在於推出針對音頻錄製套件、汽車語音接口、智能音箱、增強和虛擬現實、聲納以及助聽器設備的定製產品版本。

所以,比如說,如果您跟您的汽車或者智能音箱交流,即便您周圍噪聲很多,該設備依然能夠聽清您說的話。

據法醫科學學院的法醫教育家特麗·阿門塔(Terri Armenta)所言,人工智能在其他法醫領域也已得到應用。

“機器學習[ML]模型通過分析語音模式來確定說話者的身份,這一過程在需要對語音證據進行認證的刑事調查中尤爲有用,”她說道。

“另外,人工智能工具能夠檢測音頻記錄中的操縱或改動,保證在法庭上出示的證據的完整性。”

而且,人工智能也已涉足音頻分析的其他方面。

博世有一種叫做 SoundSee 的技術,它運用音頻信號處理算法來分析,比如,電機的聲音,從而在故障發生前進行預測。

“傳統的音頻信號處理能力缺乏像我們人類那樣理解聲音的能力,”博世美國公司的研究和技術總監薩馬爾吉特·達斯博士說。

“音頻人工智能能夠比以往任何時候都更深入地理解和語義解釋我們周圍事物的聲音——例如,環境聲音或機器發出的聲音提示。”

最近對 Wave Sciences 算法的測試表明,即使只有兩個麥克風,該技術的表現也能與人類耳朵一樣好——當添加更多麥克風時,表現甚至更好。

而且它們還揭示了一些別的東西。

“在我們所有的測試中,得出的數學結果顯示與人類聽力有顯著的相似性。”

“我們懷疑人類大腦可能在運用相同的數學——在解決雞尾酒會問題時,我們或許偶然發現了大腦中真正發生的情況。”