恭喜華中師范大學曾江峰獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網恭喜華中師范大學申請的專利一種圖像文本視覺問答方法、系統及存儲介質獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN114092707B 。
龍圖騰網通過國家知識產權局官網在2025-05-27發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202111368159.5,技術領域涉及:G06V10/42;該發明授權一種圖像文本視覺問答方法、系統及存儲介質是由曾江峰;馬霄;段堯清;文軒;蘭又銘;黃泳潼設計研發完成,并于2021-11-18向國家知識產權局提交的專利申請。
本一種圖像文本視覺問答方法、系統及存儲介質在說明書摘要公布了:本發明公開了一種圖像文本視覺問答方法、系統及存儲介質。所述方法包括:獲取目標圖像對象和目標問題對象;進行特征提取,獲得圖像視覺特征、圖像文本特征、問題文本特征;將所述圖像視覺特征、圖像文本特征和所述問題文本特征轉化到同一特征空間,對同一維度的圖像視覺特征、圖像文本特征和問題文本特征進行融合;將編碼了跨模態和模態內部關系的圖像視覺特征、圖像文本特征和問題文本特征輸入答案生成模塊,獲得目標答案。采用本發明所述的方法進行圖像文本視覺問答任務,步驟簡單、效率高、準確率高。
本發明授權一種圖像文本視覺問答方法、系統及存儲介質在權利要求書中公布了:1.一種圖像文本視覺問答方法,其特征在于,所述方法包括:獲取目標圖像對象和目標問題對象;對所述目標圖像對象進行圖像視覺特征提取,獲得圖像視覺特征;對所述目標圖像對象進行圖像文本特征提取,獲得圖像文本特征;對所述目標問題對象進行問題文本特征提取,獲得問題文本特征;將所述圖像視覺特征、圖像文本特征和所述問題文本特征轉化到同一特征空間,得到同一維度的圖像視覺特征、圖像文本特征和問題文本特征;對所述同一維度的圖像視覺特征、圖像文本特征和問題文本特征進行融合,得到編碼了跨模態和模態內部關系的圖像視覺特征、圖像文本特征和問題文本特征;將所述編碼了跨模態和模態內部關系的圖像視覺特征、圖像文本特征和問題文本特征輸入答案生成模塊,獲得目標答案;所述對所述同一維度的圖像視覺特征、圖像文本特征和問題文本特征進行融合,得到編碼了跨模態和模態內部關系的圖像視覺特征、圖像文本特征和問題文本特征,包括:將所述同一維度的圖像視覺特征、圖像文本特征和問題文本特征輸入多層模內模間信息融合網絡,得到編碼了跨模態和模態內部關系的圖像視覺特征、圖像文本特征和問題文本特征;所述多層模內模間信息融合網絡包括跨模態交互模塊和模內交互模塊,所述跨模態交互模塊和模內交互模塊組成模內模間信息融合模塊;其中,所述跨模態交互模塊用于獲取不同模態間的相關性;所述模內交互模塊用于獲取每個模態內實例之間的關系,并為跨模態交互模塊提供補充信息;模內模間信息融合模塊首先將多個模態的特征傳遞到跨模態交互模塊中,跨模態交互模塊基于SDA或SDAG機制學習三個模態之間的跨模態關系并更新三個模態的特征,使得每個模態的輸出特征包含其他模態的相關信息;跨模態交互模塊在文本模態與圖像模態之間和文本模態與OCR標記模態之間的關系學習中使用SDA機制進行關系學習,而在圖像模態與OCR標記模態之間的跨模態交互中則使用SDAG機制來學習相關權重;利用SDAG機制計算物體對象邊界框與文字對象邊界框的中心位置和尺寸,以及物體對象邊界框與文字對象邊界框之間的交并比,從而獲得更豐富的空間信息,以生成指導信息矩陣,并將指導信息矩陣應用于視覺區域和OCR標記特征之間的交互,以學習每個物體對象和OCR標記對像之間的空間相關權重;所述將所述編碼了跨模態和模態內部關系的圖像視覺特征、圖像文本特征和問題文本特征輸入答案生成模塊,獲得目標答案,包括:采用多層特征聯合預測方法使用答案生成模塊對每層模內模間信息融合模塊的輸出結果生成一個答案預測分數;第t個答案預測分數表示為多層特征聯合預測方法計算出這些分數的平均值yf,最后取yf中分數最高項對應的候選答案作為最終答案即目標答案;多層特征聯合預測方法考慮了不同抽象級別的特征對答案的貢獻;所述多層特征聯合預測方法預測答案,包括以下步驟:第i個OCR標記特征被一個分類器轉換為關于第i個OCR標記的預測分數通過均值池化操作融合圖像視覺特征和問題文本特征通過逐元素相乘方法整合以上兩個特征,獲得融合特征;將融合特征通過多層感知機網絡,生成預測分數yvoca;選擇和yvoca中分數最高的作為預測答案的分數取各分數的平均值yf,最高得分yfinal所對應的候選答案作為目標答案。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人華中師范大學,其通訊地址為:430079 湖北省武漢市洪山區珞喻路152號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。