恭喜南京理工大學葉茂嬌獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網恭喜南京理工大學申請的專利基于通道注意力機制深度強化學習算法的多無人艇協同圍捕方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN119168601B 。
龍圖騰網通過國家知識產權局官網在2025-03-25發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202411666628.5,技術領域涉及:G06Q10/101;該發明授權基于通道注意力機制深度強化學習算法的多無人艇協同圍捕方法是由葉茂嬌;王琨;丁磊;黃琦龍設計研發完成,并于2024-11-21向國家知識產權局提交的專利申請。
本基于通道注意力機制深度強化學習算法的多無人艇協同圍捕方法在說明書摘要公布了:本發明公開了一種基于通道注意力機制深度強化學習算法的多無人艇協同圍捕方法,包括以下步驟:建立海上無人艇圍捕博弈環境,確定圍捕艇的動力學模型以及觀測空間,逃逸艇的逃逸策略定義圍捕成功的條件;基于通道注意力網絡將無人艇對友方的觀測空間維數固定;構建多智能體深度確定性策略梯度算法框架,結合圍捕問題設計距離協作和角度協作的獎勵函數;采用集中訓練,分布執行的訓練框架生成多無人艇協同圍捕策略。本發明得到的協同圍捕策略考慮了不同圍捕艇的數量影響,能夠適應未來不確定數量的圍捕環境變化,同時合理的單體協同獎勵函數設計能夠提高圍捕任務的成功率。
本發明授權基于通道注意力機制深度強化學習算法的多無人艇協同圍捕方法在權利要求書中公布了:1.一種基于通道注意力機制深度強化學習算法的多無人艇協同圍捕方法,其特征在于,包括如下步驟:步驟1,建立多無人艇協同圍捕海域環境;并將海域環境中的島礁信息以及各無人艇位置角度信息參數化,給出逃逸船的策略函數;步驟2,將無人艇的交互信息建模成馬爾可夫決策模型,設計多無人艇協同圍捕任務動作空間,觀測空間和獎勵函數;具體包括:步驟2-1,對于多無人艇協同圍捕任務描述為馬爾可夫博弈,用元組表示,為全局狀態,圍捕艇的聯合觀測空間為,為圍捕艇的聯合動作空間,表示在狀態下采取策略動作后轉移到下一個狀態的轉移概率,為各圍捕艇的獎勵函數,為累計折扣獎勵的衰減系數;步驟2-2,建立圍捕艇二階運動學方程,并定義連續動作空間: (3) (4)其中,公式(3)中和分別表示無人艇的線速度和角速度,和分別表示無人艇的線速度和角速度相對于時間的導數,和分別表示無人艇的線加速度和角加速度,表示無人艇在海域上的位置坐標,和分別表示無人艇在橫縱坐標方向下的瞬時速度,為無人艇的航向角,為無人艇的瞬時航向角;公式(4)中,表示無人艇在時刻下在海域上的位置坐標,為無人艇的二維連續動作空間,其中為無人艇在軸方向上輸出的瞬時速度,為無人艇在軸方向上輸出的瞬時速度,時間間隔,表示無人艇在時刻下經過時間間隔后在海域上的位置坐標;策略網絡輸出動作后無人艇根據公式(4)進行位置更新;步驟2-3,對于第艘無人艇,定義觀測空間如下: (5) (6)其中,公式(5)表示無人艇的觀測空間包含對逃逸艇的觀測,對參與同一協同圍捕任務的友方無人艇的觀測以及自身的狀態觀測;公式(6)表示這三部分觀測的組成成分,其中和表示為逃逸艇相對于無人艇的舷角及其變化率;距離逃逸艇的距離及其變化率;敵方的速度及其變化率;和表示為無人艇相距于友方無人艇的距離和變化率,表示相互間的舷角及其變化率,表示無人艇和無人艇的夾角;無人艇左右相鄰友方無人艇的夾角差值為,表示為圍捕艇群體距離逃逸艇的距離均值;步驟2-4,對于無人艇集群協同圍捕任務設計獎勵函數如下: (7) (8) (9) (10) (11)其中,公式(7)表示無人艇的獎勵函數由單體獎勵和集群獎勵構成;公式(8)表示單體獎勵由4部分組成,分別是距離獎勵,避碰獎勵,角度獎勵以及進入圍捕圈內的額外獎勵;公式(9)表示集群獎勵由兩部分組成,分別是距離協作獎勵和角度協作獎勵;公式(10)中為參與圍捕任務的我方所有圍捕艇個數,表示無人艇相距于友方無人艇的最短距離,表示我方任意一艘圍捕艇進入到敵方圍捕區域內所獲獎勵,表示我方全部圍捕艇均進入敵方圍捕區域所獲獎勵;公式(11)中和分別表示距離協作獎勵和角度協作獎勵,無人艇左右相鄰友方無人艇的夾角差值為,表示為圍捕艇群體距離逃逸艇的距離均值;步驟3,構建通道注意力網絡,對友方無人艇狀態觀測信息進行處理后與逃逸艇和自身狀態觀測信息進行拼接輸入到算法模塊中;具體包括:步驟3-1,讀取每艘無人艇對友方無人艇的觀測信息;步驟3-2,對觀測信息不同類型屬性進行特征重構,使角度,距離觀測值在同一定量尺度上,得到N組維向量;步驟3-3,將N組維特征向量經過3個不同深度的全連接層,得到同一組觀測狀態的3個不同尺度表達;步驟3-4,將3個不同尺度的狀態表達作為通道注意力模塊的輸入,經過壓縮激勵層,得到7個通道之間的權重關系,最后與輸入信息進行加權平均輸出;步驟4,構建基于Actor-Critic的目標網絡,將無人艇的動作,狀態和獎勵作為批經驗存儲經驗池中,在訓練過程中,中心化的評價函數Critic使用經驗池中的聯合經驗來更新網絡參數,而Actor函數會依據Critic給出的Q值更新策略;步驟5,在執行階段用更新后的Actor決策函數進行去中心化決策,執行階段僅使用自身的局部觀測得到策略。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人南京理工大學,其通訊地址為:210094 江蘇省南京市孝陵衛200號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。