恭喜杭州電子科技大學陸宇獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網恭喜杭州電子科技大學申請的專利一種基于深度神經網絡的快速視頻編碼方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN114286093B 。
龍圖騰網通過國家知識產權局官網在2025-05-23發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202111599851.9,技術領域涉及:H04N19/119;該發明授權一種基于深度神經網絡的快速視頻編碼方法是由陸宇;諸承廣;殷海兵;周洋;黃曉峰;楊萌設計研發完成,并于2021-12-24向國家知識產權局提交的專利申請。
本一種基于深度神經網絡的快速視頻編碼方法在說明書摘要公布了:本發明公開了一種基于深度神經網絡的快速視頻編碼方法。本發明包括基于深度神經網絡的CU劃分模塊、基于鄰域相關性的PU模式選擇模塊;CU塊在幀內編碼時會先經過PU模式選擇計算率失真代價,此時先利用基于鄰域相關性的PU模式選擇模塊進行優化,通過輕量級HCT模型的預測結果來減少RDO計算的候選模式數量;PU模式選擇結束后,編碼器會進行CU塊深度判決,判斷該CU塊是否進行劃分,此時由基于深度神經網絡的CU劃分模塊進行優化,從HCT模型獲得預測結果來判斷是否提前終止劃分。否則繼續向下劃分子CU塊,并繼續進行PU模式選擇和CU塊劃分判決。本發明降低了CU遞歸劃分的復雜度,簡化了幀內預測模式的選擇過程,有效地提高了HEVC編碼的時間效率。
本發明授權一種基于深度神經網絡的快速視頻編碼方法在權利要求書中公布了:1.一種基于深度神經網絡的快速視頻編碼方法,其特征在于具體實現包括基于深度神經網絡的CU劃分模塊、基于鄰域相關性的PU模式選擇模塊;CU塊在幀內編碼時會先經過PU模式選擇計算率失真代價,此時先利用基于鄰域相關性的PU模式選擇模塊進行優化,通過輕量級HCT模型的預測結果來減少RDO計算的候選模式數量;PU模式選擇結束后,編碼器會進行CU塊深度判決,判斷該CU塊是否進行劃分,此時由基于深度神經網絡的CU劃分模塊進行優化,從HCT模型獲得預測結果來判斷是否提前終止劃分,否則繼續向下劃分子CU塊的PU模式選擇和CU塊劃分判決;所述的基于深度神經網絡的CU劃分模塊,具體實現如下:步驟Ⅰ、構建HEVC幀內模式下用于網絡模型訓練的數據集:數據集來源于各種分辨率的YUV視頻序列包括:CIF352×288,480p832×480,720p1280×720,1080p1920×1080,WQXGA2560×1600;采用HEVC編碼器HM16.9對所述數據集中的圖像進行編碼,獲取CU塊及其正負樣本標簽;數據集包括訓練集、驗證集和測試集,根據四個QP22,27,32,37又將每種數據集分為四個子集;步驟Ⅱ、分別為64×64、32×32、16×16這三種CU塊構建深度神經網絡形成分層卷積網絡HCT結構,分層卷積網絡HCT由ViT和CNN構成,通過對應的訓練集來訓練HCT,并由驗證集確定HCT模型并保存下來,由測試集判斷HCT模型的泛化能力;HCT模型訓練的目標函數為交叉熵損失函數: 其中output是HCT模型的輸出向量,target為標簽值,N為output向量的長度;步驟Ⅲ、分層卷積網絡HCT由卷積模塊、Encoder模塊、序列池化層以及全連接層組成;首先將CU塊的亮度分量送入分層卷積網絡HCT,通過卷積模塊輸出具有局部特征信息的特征圖,卷積模塊包含一個卷積層和一個最大池化層,每層均由線性整流函數激活以提高模型的非線性;隨后將特征圖展平成一維并與特征圖數量進行交換,即展平翻轉操作;假設輸入圖像x∈RC×H×W,其中C表示輸入圖像的數量,H為圖像的高,W為圖像的寬,經過卷積模塊后的輸出特征數據x0如下:x0=TransposeFlattenMaxPoolConv2dx2接著特征數據x0和位置向量相加送入Encoder模塊進行全局信息的提取,Encoder模塊一共有7層,每層均由一個多頭自注意力層MSL和前饋卷積層FCL組成,這兩個子層前均有層歸一化LN操作;特征數據x0先經過多頭自注意力層,輸出的數據與x0相加獲得新的特征數據x1,x1又經過前饋卷積層,其輸出值與x1相加獲得特征數據x2,公式如下所示:x1=x0+MSLLNx03x2=x1+FCLLNx14最后通過序列池化層獲得分類向量,序列池化采用映射變換T:Rb×n×d→Rb×d,b表示批量大小,n表示特征數據的數量,d表示每個特征數據的大小;該操作將整個Encoder輸出特征數據x2直接變換成分類向量,其包含輸入圖像各個部分的相關信息,用來替代ViT中額外加入的分類向量;最后分類向量經全連接層和softmax輸出二分類結果,最終的預測值為最大輸出值所在的下標;步驟IV、HCT模型采用隨機梯度下降法進行訓練,保存3種CU塊在4種QP下共12種準確率最高的HCT模型,訓練好的HCT模型采用提前終止機制,自上而下預測64×64,32×32,16×16塊的劃分結果,模型的預測結果為兩類:0代表不劃分,1代表劃分;當某類塊的預測結果為0,則編碼時不繼續往下進行四叉樹劃分;用二分類向量間的對比值來作為閾值Thr,當Thr小于定值λ時,采用原始編碼的方式檢查該CU塊,公式如下所示: 其中,outputi為i*i大小塊的二分類輸出向量,將定值λ按照塊大小分成三類,且大小比例為4:2:1;基于鄰域相關性的PU模式選擇模塊,具體實現如下:步驟1、通過HM編碼獲取每個PU塊在幀內模式選擇時的樣本標簽值label∈[0,1,2],獲取規則如下:對于64×64,32×32,16×16大小的PU塊,其RMD粗選后的候選列表原始長度為3,如果PU塊在模式選擇時的最佳模式是RMD粗選后的候選列表中的第一位,則label=0,對應RMD粗選后的候選列表長度變為1;如果PU塊在模式選擇時的最佳模式位于RMD粗選后的候選列表中的第二位,則label=1,對應RMD粗選后的候選列表長度變為2;其他情況下label=2,對應RMD粗選后的候選列表長度為3;而對于8×8,4×4的PU塊來說,由于其候選列表原始長度為8,所以我們把它也分成了三個區間來對應label=0,1,2,分別是:PU塊在模式選擇后的最佳模式位于RMD粗選后的候選列表中的第一或第二位,則label=0,對應RMD粗選后的候選列表長度變為2;PU塊在模式選擇時的最佳模式位于RMD粗選后的候選列表中的第三或第四位,則label=1,對應RMD粗選后的候選列表長度變為4;其他情況下label=2,對應RMD粗選后的候選列表長度為8;步驟2、PU模式選擇模塊的數據集同樣來源于塊劃分模塊中提到的視頻序列,并在塊劃分數據集的基礎上增加了8×8,4×4大小的PU塊數據;利用pytorch深度學習庫構建輕量級HCT模型,即Light-HCT模型,Light-HCT將Encoder模塊的層數從原來的7層降低為1層;模型的訓練采用均方誤差損失函數進行回歸訓練: 其中output為模型輸出向量,長度為3,value為output與label進行比較后得出的真實值向量,N為每一次訓練時輸入圖像的數量;真實值向量獲取規則如下:假設output=[x,y,z],label=0的情況下,如果output中的最大值出現在下標為0的地方,則value=output;如果最大值出現在下標為1的地方,則value=[y,x,z];如果最大值出現在下標為2的地方,則value=[z,y,x];同理,label=1的情況下,如果output中的最大值出現在下標為0的地方,則value=[y,x,z];如果最大值出現在下標為1的地方,則value=output;如果最大值出現在下標為2的地方,則value=[x,z,y];label=2的情況下,如果output中的最大值出現在下標為0的地方,則value=[z,y,x];如果最大值出現在下標為1的地方,則value=[x,z,y];如果最大值出現在下標為2的地方,則value=output。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人杭州電子科技大學,其通訊地址為:310018 浙江省杭州市下沙高教園區2號大街;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。