恭喜中國運載火箭技術研究院李博遙獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網恭喜中國運載火箭技術研究院申請的專利一種面向多作戰單元協同決策的多智能體增強學習方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN114358141B 。
龍圖騰網通過國家知識產權局官網在2025-05-06發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202111530475.8,技術領域涉及:G06F18/2415;該發明授權一種面向多作戰單元協同決策的多智能體增強學習方法是由李博遙;鄭本昌;路鷹;黃虎;惠俊鵬;陳海鵬;王振亞;李君;閻巖;范佳宣;李絲然;何昳頔;張佳;任金磊;吳志壕;劉峰;范中行;張旭輝;趙大海;韓特;肖肖設計研發完成,并于2021-12-14向國家知識產權局提交的專利申請。
本一種面向多作戰單元協同決策的多智能體增強學習方法在說明書摘要公布了:一種面向多作戰單元協同決策的多智能體增強學習方法,包括步驟如下:針對紅藍方博弈對抗場景,建立多智能體增強學習模型,實現面向多作戰單元的智能協同決策建模;采用事后目標轉換方法增加有效訓練樣本數量,實現多智能體增強學習模型的優化收斂;以團隊全局任務獎勵為基準,以各作戰單元具體動作獎勵作為反饋信息,構建獎勵函數;根據不同作戰方案生成多種對手策略,利用獎勵函數通過海量模擬博弈對抗對多智能體增強學習模型進行訓練。本發明解決了現有技術中存在的紅藍方博弈對抗多作戰單元決策協同性低、有價值訓練樣本難獲取等問題。
本發明授權一種面向多作戰單元協同決策的多智能體增強學習方法在權利要求書中公布了:1.一種面向多作戰單元協同決策的多智能體增強學習方法,其特征在于,包括步驟如下:針對紅藍方博弈對抗場景,建立多智能體增強學習模型,實現面向多作戰單元的智能協同決策建模;采用事后目標轉換方法增加有效訓練樣本數量,實現多智能體增強學習模型的優化收斂;以團隊全局任務獎勵為基準,以各作戰單元具體動作獎勵作為反饋信息,構建獎勵函數;根據不同作戰方案生成多種對手策略,利用獎勵函數通過模擬博弈對抗對多智能體增強學習模型進行訓練;多智能體增強學習模型的構建過程如下:搭建紅藍方博弈對抗場景;對紅藍方博弈對抗場景中的任務特性和決策點進行分析,確定協同任務決策點的狀態空間;針對協同任務決策點,建立多智能體增強學習模型;確定協同任務決策點的狀態空間的方法如下:將博弈對抗場景整體態勢信息和作戰單元局部觀測信息作為狀態輸入,通過固定部分狀態輸入取值進行缺省驗證,剔除無用或起反作用狀態,確定任務決策點的關鍵狀態空間;采用事后目標轉換方法增強有效訓練樣本數量的具體方法為:在每個回合迭代訓練中,從經驗池內根據采樣概率值選擇樣本數據,將樣本中智能體未能實現的原始任務目標更改為其在某一時刻能夠達到的狀態,構造有效正樣本用于模型訓練;采樣概率值的計算公式如下: 其中,pi=|δi|+ε表示第i個樣本的優先級,δi表示第i個樣本的時序差分誤差,ε表示隨機噪聲,防止采樣概率為0;α用于調節優先程度,Pi為第i個樣本數據的采樣概率;利用獎勵函數通過模擬博弈對抗對多智能體增強學習模型進行訓練的具體方法為:根據不同作戰方案構建藍方策略庫,每隔設定的訓練周期,利用紅方在線決策模型對藍方策略庫進行擴充,利用獎勵函數通過模擬博弈對抗完成紅方多智能體增強學習模型的進化訓練。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人中國運載火箭技術研究院,其通訊地址為:100076 北京市豐臺區南大紅門路1號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。