恭喜四川大學李曉慧獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網恭喜四川大學申請的專利一種基于強化學習的未知協議文本聚類方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN115309896B 。
龍圖騰網通過國家知識產權局官網在2025-05-13發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202210848560.7,技術領域涉及:G06F16/35;該發明授權一種基于強化學習的未知協議文本聚類方法是由李曉慧;吳沛穎;王俊峰設計研發完成,并于2022-07-19向國家知識產權局提交的專利申請。
本一種基于強化學習的未知協議文本聚類方法在說明書摘要公布了:本發明公開了一種基于強化學習的未知協議文本聚類方法,以協議逆向工程中的基于網絡跟蹤的靜態解析技術路線為基礎,采用強化學習算法DQN對十六進制網絡流量文本進行分類的自學習,使用CNN進行特征提取,結合一維動作向量共同作為輸入進行Q值計算,同時結合流量文本的離散性和隨機性對強化學習框架中的經驗回放步驟進行了簡化,兼顧了運算量縮小和結構簡化。本發明實現了對多種不同應用程序來源的使用未知協議的網絡流量文本的來源分類,具有較高的分類準確率和較好的穩定性。
本發明授權一種基于強化學習的未知協議文本聚類方法在權利要求書中公布了:1.一種基于強化學習的未知協議文本聚類方法,其特征在于,包括以下步驟:步驟1:在主機上啟動需要捕獲流量的應用程序,啟動抓包工具或代碼進行流量抓取,對得到的流量文本進行預處理;步驟2:設定動作編碼為類別對應的數字0-4,將每一條流量文本視作一個環境狀態,將輸入的流量文本先通過CNN處理成特征向量,然后輸入到全連接層,輸出為5個Q值;對于每個環境狀態s下采用的動作A,使動作A的編號對應的位置為1,其他4位置為0,構成一維動作向量,將一維動作向量與5個Q值做點乘并計算出和,得到每個環境狀態s下采用動作A的Qs,A,Qs,A為某狀態s中遵循某策略采取動作A的累計回報;以流量文本和一維動作向量為輸入,所有Qs,A為輸出建立兩個完全相同的模型,分別用于決策的model1和用于訓練的model2;步驟3:決策過程使用ε-greedy策略,ε的概率選擇未知的動作,1-ε的概率選擇經驗中回報最大的動作,保證每個狀態-動作對都有概率被訪問到;步驟4:設置一個函數作為系統環境,在每一輪循環中從輸入的待分類樣本中隨機選擇一個文本并拋給負責做決策的model1,該文本即為當前狀態;結合步驟3所述的ε-greedy策略,ε的概率隨機選擇動作,返回Q值為0;1-ε的概率使model1對該文本類別進行預測并計算Q值,將其預測結果與真實結果進行對比并給出獎懲反饋,正確則加分,錯誤則減分;系統環境隨機拋出下一條文本作為下一個狀態;將返回的Q值和對應的狀態s、動作A、得到的分數、下一個狀態記錄到經驗記憶中;步驟5:從經驗記憶中隨機采樣一批數據,輸入到貝爾曼方程計算新的Q值,將新的Q值更新給model2;每隔一定的輪次,將model1的參數復制給model2;步驟6:重復訓練步驟直到完成指定的訓練次數,或者總分數達到了指定的閾值,則訓練完成;所訓練出的模型需能夠對新輸入的流量文本進行準確的來源或種類區分;所述步驟5中將model1的參數復制給model2,先在model1中找出最大Q值對應的動作,再使用該動作到model2的網絡中計算目標Q值,計算公式如下:yj=Rj+γQ`ΦS`j,argmaxQΦS`j,a,ω,ω`2其中,yj為當前目標Q值;Q表示model1當前Q網絡,Q`表示model2目標Q網絡;Rj為當前狀態-動作對應的獎勵;γ為衰減度,表示對未來的依賴程度,取值范圍在0到1之間;S`j為當前狀態Sj執行動作A之后的新狀態,ΦS`j為狀態S`j的特征向量;a為學習率;ω為當前Q網絡的網絡參數;ω`為目標Q網絡的網絡參數。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人四川大學,其通訊地址為:610065 四川省成都市武侯區一環路南一段24號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。