東南大學劉波獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉東南大學申請的專利融合表情信息的密集視頻描述方法及系統獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN114694062B 。
龍圖騰網通過國家知識產權局官網在2025-03-21發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202210257432.5,技術領域涉及:G06V20/40;該發明授權融合表情信息的密集視頻描述方法及系統是由劉波;王陶然;汪銘;胡明芮;曹玖新設計研發完成,并于2022-03-16向國家知識產權局提交的專利申請。
本融合表情信息的密集視頻描述方法及系統在說明書摘要公布了:本發明公開了一種融合表情信息的密集視頻描述方法及系統,本發明的方法步驟如下:首先利用預訓練好的I3D模型和InceptionV3模型分別提取視頻的動態特征和行為類別特征;再基于視頻上下文截取若干可能存在行為的視頻片段,并為其各生成描述性文本;之后根據視頻片段的視覺和文本信息,對候選人物的行為進行識別和跟蹤;根據視覺和音頻信息,預測行為主體表情類別;根據文本和表情信息,構建模型,生成融合表情信息的密集視頻描述。系統采用web交互技術實現描述生成結果的可視化展示。本發明可以有效提高生成描述的準確性及豐富性,魯棒性強。此外,結合語音合成等技術,本發明還能幫助視障人士較好的理解視頻。
本發明授權融合表情信息的密集視頻描述方法及系統在權利要求書中公布了:1.一種融合表情信息的密集視頻描述方法,其特征在于,該方法包括以下步驟:1視頻特征提取對視頻進行幀率統一的預處理,利用預訓練好的I3D模型提取幀率統一預處理后的視頻的動態特征,并利用預訓練好的InceptionV3模型提取幀率統一預處理后的視頻的行為類別特征;2密集視頻概要描述生成根據步驟1中得到的視頻的動態特征以及行為類別特征,從給定的一段視頻中,截取若干最有可能存在行為的視頻片段,根據視頻片段的視覺信息,選擇一組含有高度相關行為的視頻片段,并針對視頻片段生成一條描述性語句;步驟2具體包括步驟:2-1根據步驟1得到的視頻的動態特征V={v1,v2,…,vT},其中vi,i=1…T表示每幀視頻的行為類別特征,T表示該視頻抽幀的數量,利用雙向SST算法,使用正向流和反向流信息,在每個時間步計算相應視頻片段存在行為的概率,各行為片段的綜合置信度分數Cp,計算公式如下: 其中表示正向流置信度分數,表示反向流置信度分數,N表示時間步的數目,的計算方式如下: 其中σ表示Sigmoid函數,表示在時間步t時的視頻流置信度分數,表示在時間步t時LSTM單元的隱藏狀態,是表示比例系數的訓練參數,bc是表示偏移系數的訓練參數,輸出最終置信度分數高于閾值的行為片段集合P,P可形式化表示為:P={p1,p2,…,pM} 其中pi,i=1…M表示最終置信度分數高于閾值的每個行為片段,表示行為片段pi的開始時間,表示行為片段pi的結束時間,表示反向流LSTM單元在行為片段pi開始時間步的隱藏狀態,表示正向流LSTM單元在行為片段pi結束時間步的隱藏狀態;2-2對于行為片段集合P,根據指針網絡,利用注意力機制,使用循環神經網絡輸出關于輸入序列的概率分布,在每個時間步計算關于行為片段集合P的權值at,at的計算方式如下: 其中ATT·表示Attention函數,表示當前指針ptr對應的LSTM單元的隱藏狀態,upi通過以下方式計算得到:upi=[Locpi,Vispi]5Vispi表示行為片段pi的視覺特征,Locpi表示行為片段pi在整個視頻中的位置;將權值at作為選擇各行為片段的概率,選擇概率最高的輸入元素作為輸出,從而實現從候選行為片段中選擇一組高度相關的行為片段的目標;2-3使用動態注意力機制以及門控機制融合行為類別信息、上下文視覺信息以及當前行為片段視覺信息,利用融合后的視覺信息生成描述,對于行為片段根據其時間戳從動態特征序列V={v1,v2,…,vT}中提取pi對應的動態特征集合作為當前行為片段視覺信息;行為類別特征序列E表示如下: 其中b表示行為類別總數,Prli表示行為片段的行為類別是li的概率,L表示視頻幀數;從行為類別特征序列E={e1,e2,…,eL}中提取pi對應的行為類別特征集合Ei,對Ei進行平均池化操作得到行為類別特征η,使用LSTM作為解碼器生成描述,在時間步t,輸入解碼器LSTM的視覺信息Ftpi形式化表示為: 其中Ht-1是解碼器在時間步t-1的隱藏狀態,n表示總的行為片段數,m表示當前行為片段編號;使用動態注意力機制來融合當前行為片段視覺信息中的I3D特征計算方式如下所示: 表示第i+m-1個I3D特征vi+m-1對應的權值,其通過如下方式計算: 表示I3D特征vk+m-1對應的相關性分數,表示I3D特征vi+m-1對應的相關性分數,計算方式如下所示: 其中,是解碼器在時間步hi內的向量拼接表示,WV,Wh,WH分別表示其中每一項的參數,tanh·表示雙曲正切函數,之后,利用類似LSTM門控機制的方法,將視覺特征與上下文視覺信息融合,通過門控信號gct,控制當前行為片段及其上下文視覺信息對描述生成的影響;生成的描述形式化表示為:其中和分別表示語句Si對應視頻片段的開始和結束時間;表示融合表情信息的密集視頻描述,表示第i個視頻片段的描述,Mx表示語句數量, 表示一個語句,w表示單詞,wk∈{angry,disgust,fear,happy,netural,sad,surprise};3行為識別與主體定位利用目標檢測算法檢測視頻片段前k=16幀中的人物,定位人體區域,分析描述性語句的主語,排除不相符的人體區域,然后利用目標跟蹤算法DeepSort定位各人物在視頻中的位置,并利用孿生網絡進行關聯,減少目標跟蹤丟失的情況,再利用行為識別算法得出各人物的行為類別概率分布,并根據描述性語句中的行為信息,識別出最有可能是行為主體的人物,輸出該人物的位置信息;4行為主體表情識別根據步驟3得到的人物的位置信息,融合靜態圖像信息、時序信息以及音頻信息,進行行為主體表情識別;5構建融合表情信息的密集視頻描述模型根據步驟2和步驟4的輸出,利用依存關系分析算法解析描述性語句,提取句子成分,利用語法規則生成新的描述性語句,得到融合表情信息的密集視頻描述;6系統功能展示。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人東南大學,其通訊地址為:210096 江蘇省南京市玄武區四牌樓2號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。