世優科技申請基於場景的語音識別方法及裝置專利,解決現有技術中語音識別不準確的問題

金融界 2024 年 11 月 11 日消息,國家知識產權局信息顯示,世優(北京)科技股份有限公司申請一項名爲“基於場景的語音識別方法及裝置”的專利,公開號 CN 118918883 A,申請日期爲 2024 年 10 月。

專利摘要顯示,本發明公開了一種基於場景的語音識別方法及裝置。其中,該方法包括:獲取待識別語音信號的語音編碼特徵;獲取與待識別語音信號的應用場景對應的場景關鍵詞,並基於場景關鍵詞生成包含上下文依賴的場景特徵向量;通過多層雙向神經網絡,逐層使用不同深度的上下文特徵,來從場景特徵向量中提取出與場景關鍵詞相關的深層隱層特徵;基於動態注意力機制,將深層隱層特徵與語音編碼特徵進行融合處理,生成包含場景關鍵詞的融合特徵;基於融合特徵,通過分類器計算出待識別語音信號的語音單元的概率分佈,並基於概率分佈對語音單元進行分類;根據語音單元的分類結果,對待識別語音信號進行語音識別。本發明解決了現有技術中語音識別不準確的技術問題。

本文源自:金融界

作者:情報員