深圳若愚科技申請基於多模態模型的意圖識別專利,使機器人在複雜任務中減少對人類頻繁指令的依賴

金融界2024年11月11日消息,國家知識產權局信息顯示,深圳若愚科技有限公司申請一項名爲“基於多模態模型的意圖識別方法、裝置、設備及存儲介質”的專利,公開號CN 118916531 A,申請日期爲2024年10月。

專利摘要顯示,本申請涉及意圖識別技術領域,提供了基於多模態模型的意圖識別方法、裝置、設備及存儲介質。該方法包括:獲取文本指令信息和目標視頻;將所述文本指令信息輸入預設的文本特徵提取模型,得到文本指令特徵信息;對所述目標視頻進行分幀處理,得到所述目標視頻對應的視頻幀序列;將所述視頻幀序列輸入預設的視覺特徵提取模型,得到視覺特徵信息;將所述文本指令特徵信息與所述視覺特徵信息進行融合,得到融合特徵信息,並將所述融合特徵信息輸入預設的多模態模型,得到用戶意圖文本。將該方法應用於機器人時,能夠使機器人在複雜任務中,減少對人類頻繁指令的依賴,從而實現更加流暢和高效的人機協作。

本文源自:金融界

作者:情報員