恭喜廈門崛鼎科技股份有限公司豐江帆獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網恭喜廈門崛鼎科技股份有限公司申請的專利一種基于分工決策的視覺問答模型的視覺問答方法及系統獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN114283292B 。
龍圖騰網通過國家知識產權局官網在2025-05-06發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202111483361.2,技術領域涉及:G06V10/44;該發明授權一種基于分工決策的視覺問答模型的視覺問答方法及系統是由豐江帆;劉睿國;龍仁華;易成杰設計研發完成,并于2021-12-07向國家知識產權局提交的專利申請。
本一種基于分工決策的視覺問答模型的視覺問答方法及系統在說明書摘要公布了:本發明屬于圖像問答領域,具體涉及一種基于分工決策的視覺問答模型的視覺問答方法及系統,該方法包括:獲取視覺圖像和待回答的問題,將視覺圖像和待回答的問題輸入到LRBNet模型中,得到問答結果;LRBNet模型包括視覺理解模塊、文本理解模塊以及交換模塊;所述視覺理解模塊用于得到視覺特征圖,所述文本理解模塊用于得到文本特征圖,所述交換模塊用于對視覺特征圖和文本特征圖進行數據交互,根據交互數據更新節點;視覺空間特征圖和文本語義信息進行關聯和更新,得到最終的問答結果;本發明將文本語義信息和視覺空間信息分離處理,只在最后將處理的結果融合,降低了其他VQA模型因跨模態融合而提高的推理難度。
本發明授權一種基于分工決策的視覺問答模型的視覺問答方法及系統在權利要求書中公布了:1.一種基于分工決策的視覺問答模型的視覺問答系統,其特征在于,該系統包括:特征獲取模塊、分工決策模塊以及答案輸出模塊;所述特征獲取模塊用于獲取圖像的視覺特征和問題的文本特征,并輸入到分工決策模塊中;所述分工決策模塊包括預處理模塊、視覺理解模塊、文本理解模塊、交換模塊以及答案預測模塊;所述預處理模塊用于將問題文本轉化為視覺特征,并提取圖像的局部視覺特征和局部文本信息,將問題文本轉化的視覺特征和圖像的局部視覺特征輸入到視覺理解模塊,將局部文本信息輸入到文本理解模塊;數據預處理模塊將問題文本轉化為視覺特征的過程包括:采用文本-圖像網絡DM-GAN對訓練集中與圖像有關的問題進行轉化,得到該問題的圖像,并采用ResNet50網絡對轉化后的圖像進行特征提取,得到與問題有關的視覺特征Q2Ifeature;所述視覺理解模塊用于處理來自預處理模塊的輸出,經過篩選、圖構建和空間關系建模,得到視覺特征圖并輸入到交換模塊;具體包括:采用邊界框裁剪模塊BoundingBoxClipping和矩陣創建模塊AdjacencyMatrixCreating對圖像局部特征Imagefeatures和Q2Ifeature進行篩選和圖構建,得到鄰接矩陣和視覺特征圖;將Imagefeatures與Q2Ifeature進行拼接并和鄰接矩陣一起輸入到空間關系學習模塊SpatialRelationLearning中進行空間關系建模;采用殘差連接模塊AddNorm將關系建模后的視覺特征與建模之前的特征相加并歸一化,得到視覺空間特征;所述文本理解模塊用于處理文本信息,經過篩選、計數和語義關系建模,將得到的文本特征圖輸入到交換模塊,將計數結果的one-hot向量輸入到問題預測模塊;文本信息包括問題文本和來自數據預處理模塊的圖像的局部文本信息;具體包括:采用LSTM對圖像的文本信息Imagecaptions和問題文本Question進行編碼;采用邊界框裁剪模塊BoundingBoxClipping和鄰接矩陣構建模塊Createadjacencymatrix對編碼后的Imagecaptions和Question進行篩選和圖構建,得到鄰接矩陣和文本特征圖;將篩選的結果送入Count模塊中進行計數得到C;將編碼后的Imagecaptions和Question進行拼接并和鄰接矩陣一起輸入到語義關系學習模塊SemanticRelationLearning進行語義關系建模;采用AddNorm模塊將關系建模后的特征與建模之前的特征相加并歸一化,得到文本語義特征;所述交換模塊用于在視覺理解模塊和文本理解模塊之間進行數據交互,接收來自視覺理解模塊的視覺特征圖和文本理解模塊的文本特征圖,通過數據交互,對視覺特征圖和文本特征圖進行一輪或多輪迭代更新,并將最后一輪迭代更新的視覺特征圖和文本特征圖分別反饋給視覺理解模塊和文本理解模塊;迭代更新的具體包括:分別獲取視覺特征圖和文本特征圖中每個節點的特征值集合,利用兩個特征值集合計算兩個特征圖之間的注意力系數矩陣,利用注意力系數矩陣分別和兩個特征圖的每個節點進行加權平均,并利用特征線性調制對每個節點進行更新;所述問題預測模塊用于獲取文本理解模塊和視覺理解模塊中的更新后的文本特征圖、更新后的視覺特征圖以及one-hot向量,并根據得到的特征得到問題的答案;具體包括:采用注意力機制計算問題文本特征和文本語義特征的注意力系數,將注意力系數和文本語義特征進行加權平均得到文本語義嵌入capemb,將capemb送入多層感知機MLP中得到文本理解模塊預測的概率p2;采用注意力機制計算問題轉化的視覺特征Q2Ifeature和視覺空間特征的注意力系數,將注意力系數和視覺空間特征進行加權平均得到視覺空間嵌入Vemb,將Vemb送入多層感知機MLP中得到視覺理解模塊預測的概率p3;將capemb,Vemb以及C進行拼接送入多層感知機MLP中得到聯合嵌入預測的概率p1;所述答案輸出模塊用于輸出問題預測模塊得到的問題答案。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人廈門崛鼎科技股份有限公司,其通訊地址為:361008 福建省廈門市軟件園二期觀日路44號401單元A區;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。