☰

世優科技申請基於場景的語音識別方法及裝置專利，解決現有技術中語音識別不準確的問題

金融界 2024 年 11 月 11 日消息，國家知識產權局信息顯示，世優（北京）科技股份有限公司申請一項名爲“基於場景的語音識別方法及裝置”的專利，公開號 CN 118918883 A，申請日期爲 2024 年 10 月。

專利摘要顯示，本發明公開了一種基於場景的語音識別方法及裝置。其中，該方法包括：獲取待識別語音信號的語音編碼特徵；獲取與待識別語音信號的應用場景對應的場景關鍵詞，並基於場景關鍵詞生成包含上下文依賴的場景特徵向量；通過多層雙向神經網絡，逐層使用不同深度的上下文特徵，來從場景特徵向量中提取出與場景關鍵詞相關的深層隱層特徵；基於動態注意力機制，將深層隱層特徵與語音編碼特徵進行融合處理，生成包含場景關鍵詞的融合特徵；基於融合特徵，通過分類器計算出待識別語音信號的語音單元的概率分佈，並基於概率分佈對語音單元進行分類；根據語音單元的分類結果，對待識別語音信號進行語音識別。本發明解決了現有技術中語音識別不準確的技術問題。

本文源自：金融界

作者：情報員

世優科技申請基於場景的語音識別方法及裝置專利，解決現有技術中語音識別不準確的問題

相關資訊