150萬條多語種音頻數據!浙大清華髮布語音僞造檢測框架SafeEar,兼顧隱私保護|CCS 2024

新智元報道

編輯:LRST

【新智元導讀】SafeEar是一種內容隱私保護的語音僞造檢測方法,其核心是設計基於神經音頻編解碼器的解耦模型,分離語音聲學與語義信息,僅利用聲學信息檢測,包括前端解耦模型、瓶頸層和混淆層、僞造檢測器、真實環境增強四部分。

近年來,語音合成和語音轉換等技術取得快速發展,基於相關技術能夠合成逼真、自然的音頻。然而,攻擊者可利用該技術進行語音僞造,即「克隆」特定對象語音,爲用戶隱私安全與社會穩定帶來嚴重威脅。

目前,已有較多基於卷積神經網絡、圖神經網絡等的僞造檢測方法取得了優越的檢測效果。但現有工作通常需要採用音頻波形或頻譜特徵作爲輸入,即需要訪問語音完整信息,在該過程中存在語音隱私泄露問題。同時,已有研究證實音色、響度等聲學特徵在語音僞造檢測上的重要性[1,2],這爲僅基於聲學特徵進行深度僞造檢測帶來潛在可能。

針對此問題,浙江大學智能系統安全實驗室(USSLAB)與清華大學聯合提出SafeEar,一種內容隱私保護的語音僞造檢測方法。

論文地址:https://safeearweb.github.io/Project/files/SafeEar_CCS2024.pdf

論文主頁:https://safeearweb.github.io/Project/

代碼地址:https://github.com/LetterLiGo/SafeEar

CVoiceFake數據集地址:https://zenodo.org/records/11124319

SafeEar的核心思路是,設計基於神經音頻編解碼器(Neural Audio Codec)的解耦模型,該模型能夠將語音的聲學信息與語義信息分離,並且僅利用聲學信息進行僞造檢測(如圖1),從而實現了內容隱私保護的語音僞造檢測。

該框架針對各類音頻僞造技術展現良好的檢測能力與泛化能力,檢測等錯誤率(EER)可低至2.02%,與基於完整語音信息進行僞造檢測的SOTA性能接近。同時實驗證明攻擊者無法基於該聲學信息恢復語音內容,基於人耳與機器識別方法的單詞錯誤率(WER)均高於93.93%。

圖1 SafeEar原理示意圖

方法概述

SafeEar採用一種串行檢測器結構,對輸入語音獲取目標離散聲學特徵,進而輸入後端檢測器,主要框架如圖2所示。

圖2 SafeEar框架示意圖。(虛線方框內的④Real-world Augmentation僅在訓練時出現,推理階段僅有①②③模塊)

主要包括以下四個部分:

1. 基於神經音頻編解碼器的前端解耦模型(Frontend Codec-based Decoupling Model, Frontend CDM)

受SpeechTokenizer[3]等前期工作的啓發,該部分基於神經音頻編解碼器結構,在語音特徵分離與重建的過程中實現語音特徵解耦。如圖3所示,包括編碼器(Encoder)、多層殘差向量量化器(Residual Vector Quantizers, RVQs)、解碼器(Decoder)、鑑別器(Discriminator)四個核心部分。

其中,RVQs主要包括級聯的八層量化器,在第一層量化器中以Hubert特徵作爲監督信號分離語義特徵,後續各層量化器輸出特徵累加即爲聲學特徵。

圖3 基於神經音頻編解碼器的解耦模型示意圖。

2. 瓶頸層和混淆層(Bottleneck & Shuffle)

如圖4所示,瓶頸層被用於特徵降維表徵和正則化處理。混淆層對聲學特徵進行固定時間窗範圍內的隨機打亂重置,從而提升特徵複雜度,確保內容竊取攻擊者即便藉助SOTA的語音識別(ASR)模型,也無法從聲學特徵中強行提取出語義信息。最終,經過解纏和混淆雙重保護的音頻可以有效抵禦人耳或者模型兩方面的惡意語音內容竊取。

圖4 瓶頸層和混淆層示意圖

3. 僞造檢測器(Deepfake Detector)

最近研究表明Transformer分類器在僞造檢測方面的潛力[4],SafeEar框架的僞造音頻檢測後端設計了一種僅基於聲學輸入的Transformer-based分類器,採用正弦、餘弦函數交替形式對語音信號在時域和頻域上進行位置編碼。該分類器的主要結構如圖5所示,包括編碼器、池化層和全連接層等部分。

圖5 基於聲學特徵的語音僞造檢測分類器。

4. 真實環境增強(Real-world Augment)

鑑於現實世界的信道多樣性,採用具有代表性的音頻編解碼器(如G.711、G.722、gsm、vorbis、ogg)進行數據增強,模擬實際環境中帶寬、碼率的多樣性,以推廣到不可見通信場景。

實驗結果

僞造檢測效果

本文選擇了八個代表性的基線方法,其中包括端到端檢測器(AASIST[5]、RawNet2[6]、Rawformer[7])和串行檢測器(LFCC+SE-ResNet34[8]、LFCC + LCNN-LSTM[9]、LFCC+GMM[10]、CQCC+GMM[10]、Wav2Vec2+Transformer),測試數據集採用語音僞造檢測代表性數據集ASVspoof2019[11]和ASVspoof2021[12],實驗結果如表1所示。

SafeEar在信息損失的情況下,仍能實現較爲優越的檢測效果,在同類型的串行檢測器中達到最低等錯誤率(3.10%),且優於部分端到端檢測器。

表1 整體僞造檢測效果對比

隱私保護效果

對於隱私保護效果,本文討論了具有不同能力的三類主要攻擊者,包括Naive content recovery adversary(CRA1)、Knowledgeable content adversary(CRA2)和Adaptive content adversary(CRA3),通過語音識別(具有代表性的ASR模型和開源ASR API)準確率評價隱私保護的效果。

由於解耦出的聲學特徵具有信息損失性,攻擊者無法有效恢復或重建語音內容,從而證明該方法具有隱私保護能力。同時,論文通過用戶測試體現出人耳與機器在內容隱私恢復上均具有較高難度。部分實驗結果如下。

圖6 訓練過程中驗證集上詞錯誤率變化曲線(CRA1)。可見ASR模型(Conformer、Bi-LSTM)對於SafeEar保護後的語音始終無法識別,WER曲線保持過高數值且震盪;而對於完整音頻,ASR模型可迅速收斂並在驗證集上取得極低的WER

圖7 真實的用戶調研表明,ASR模型被認爲能夠有效識別完整音頻(高達Original: 8.99),而對於SafeEar面對不同攻擊者等級下的識別效果始終很差(低至CRA2: 1.31、CRA3: 1.31);同理人耳聽感的清晰度分別爲Original: 9.38、CRA2: 1.10、CRA3: 1.60。當用戶模擬攻擊者嘗試恢復語音內容時,在SafeEar保護下的WER始終高於96.37%

音頻示例

原始音頻 / SafeEar保護後的音頻:

總結與展望

本文在保護語音內容隱私的同時實現了語音深度僞造檢測,該方法可被應用於實時語音通話環境,具有優越的檢測準確性和泛化能力。

同時,該工作構建了涉及五種主流語言(英語、中文、德語、法語、意大利語)、多聲碼器(Parallel WaveGAN, Multi-band MelGAN, Style MelGAN, Griffin-Lim, WORLD, DiffWave)的語音僞造檢測數據集CVoiceFake,最新數據集涵蓋150萬個語音樣本及其對應轉錄文本,可作爲語音僞造檢測和內容恢復攻擊的基準數據集。

SafeEar也提供了一種新穎的隱私保護串行檢測框架,能夠在其他相關任務中沿用和拓展,進而推進智能語音服務安全化發展。

參考資料:

[1] Chaiwongyen A, Songsriboonsit N, Duangpummet S, et al. Contribution of Timbre and Shimmer Features to Deepfake Speech Detection[C]. 2022 Asia-Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC). Chiang Mai, Thailand: IEEE, 2022: 97-103.

[2] Li M, Ahmadiadli Y, Zhang X P. A Comparative Study on Physical and Perceptual Features for Deepfake Audio Detection[C]. Proceedings of the 1st International Workshop on Deepfake Detection for Audio Multimedia. Lisboa Portugal: ACM, 2022: 35-41.

[3] Zhang, X., Zhang, D., Li, S., Zhou, Y. and Qiu, X., 2023. SpeechTokenizer: Unified Speech Tokenizer for Speech Large Language Models. International Conference on Learning Representations (ICLR) 2024.

[4] Liu, X., Liu, M., Wang, L., Lee, K.A., Zhang, H. and Dang, J., 2023, June. Leveraging positional-related local-global dependency for synthetic speech detection. In ICASSP 2023-2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP) (pp. 1-5). IEEE.

[ 5] Jung J weon, Heo H S, Tak H, et al. AASIST: Audio Anti-Spoofing using Integrated Spectro-Temporal Graph Attention Networks[J]. arXiv, 2021.

[6] Jung J weon, Kim S bin, Shim H jin, et al. Improved RawNet with Feature Map Scaling for Text-independent Speaker Verification using Raw Waveforms[J]. arXiv, 2020.

[7] Liu X, Liu M, Wang L, et al. Leveraging Positional-Related Local-Global Dependency for Synthetic Speech Detection[C]. ICASSP 2023 - 2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). Rhodes Island, Greece: IEEE, 2023: 1-5.

[8] Pal M, Raikar A, Panda A, et al. Synthetic Speech Detection Using Meta-Learning with Prototypical Loss[J]. arXiv, 2022.

[9] Wang X, Yamagishi J. A Comparative Study on Recent Neural Spoofing Countermeasures for Synthetic Speech Detection[J]. arXiv, 2021.

[10] ASVspoof2021 challenge organizers. ASVspoof 2021 Baseline CM & Evaluation Package[EB/OL]. 2021. https: //github.com/asvspoof- challenge/2021.

[11] Yamagishi J, Todisco M, Delgado H, et al. ASVspoof 2019: Automatic Speaker Verification Spoofing and Countermeasures Challenge Evaluation Plan[R]. ASV Spoof, 2019: 13.

[12] Delgado H, Evans N, Kinnunen T, et al. ASVspoof 2021: Automatic Speaker Verification Spoofing and Countermeasures Challenge Evaluation Plan[J]. arXiv, 2021.