恭喜中國人民解放軍國防科技大學黃杰獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監(jiān)控用IP管家,真方便!
龍圖騰網(wǎng)恭喜中國人民解放軍國防科技大學申請的專利基于PPO算法多無人機協(xié)同避障控制方法、裝置和設備獲國家發(fā)明授權專利權,本發(fā)明授權專利權由國家知識產(chǎn)權局授予,授權公告號為:CN119396192B 。
龍圖騰網(wǎng)通過國家知識產(chǎn)權局官網(wǎng)在2025-04-04發(fā)布的發(fā)明授權授權公告中獲悉:該發(fā)明授權的專利申請?zhí)?專利號為:202510002931.3,技術領域涉及:G05D1/46;該發(fā)明授權基于PPO算法多無人機協(xié)同避障控制方法、裝置和設備是由黃杰;王何鵬飛;洪華杰;王楠;王偉;何科延;甘子豪設計研發(fā)完成,并于2025-01-02向國家知識產(chǎn)權局提交的專利申請。
本基于PPO算法多無人機協(xié)同避障控制方法、裝置和設備在說明書摘要公布了:本申請涉及一種基于PPO算法多無人機協(xié)同避障控制方法、裝置和設備,所述方法包括:構建智能體,在每架無人機上部署一個智能體,智能體包括策略網(wǎng)絡和價值網(wǎng)絡;采用鏈式PPO訓練框架對編隊中的無人機進行多輪訓練,得到每架無人機的路徑規(guī)劃和避障任務的最優(yōu)策略;編隊中的每架無人機執(zhí)行各自的路徑規(guī)劃和避障任務的最優(yōu)策略,實現(xiàn)多無人機協(xié)同避障控制。在訓練過程中除了當前訓練中的無人機,其他無人機保持固定策略,有效保持訓練環(huán)境的穩(wěn)定性;鏈式訓練框架,利用無人機各自局部觀測狀態(tài)預估動作量,在有啟發(fā)式信息和獎勵函數(shù)的指導下,能夠在避障的前提下保持一定的編隊穩(wěn)定性到達目標點,提高了快速到達目的地的效果。
本發(fā)明授權基于PPO算法多無人機協(xié)同避障控制方法、裝置和設備在權利要求書中公布了:1.一種基于PPO算法的多無人機協(xié)同避障控制方法,其特征在于,所述方法包括:構建智能體,在每架無人機上部署一個智能體,所述智能體包括策略網(wǎng)絡和價值網(wǎng)絡;采用鏈式PPO訓練框架對編隊中的無人機進行多輪訓練,得到每架無人機的路徑規(guī)劃和避障任務的最優(yōu)策略;所述鏈式PPO訓練框架采用分布式訓練方式,當前訓練的無人機采用PPO算法,增加啟發(fā)式信息作為指引,向策略網(wǎng)絡和值函數(shù)網(wǎng)絡輸入當前無人機局部觀測狀態(tài),策略網(wǎng)絡輸出動作值到訓練環(huán)境中對狀態(tài)進行更新,價值網(wǎng)絡輸出Q值對當前狀態(tài)進行評估;編隊中非當前訓練的無人機基于各自的局部觀測狀態(tài)采用固定性策略分別輸出各自動作量到訓練環(huán)境中對狀態(tài)進行更新;所述訓練環(huán)境為多無人機運動的三維連續(xù)空間;編隊中的每架無人機執(zhí)行各自的路徑規(guī)劃和避障任務的最優(yōu)策略,實現(xiàn)多無人機協(xié)同避障控制;其中,增加啟發(fā)式信息作為指引,包括:采用啟發(fā)式速度疊加到動作量上,提升訓練速度以及效果;其中,所述啟發(fā)式速度為: 其中,為啟發(fā)式速度,為一較小正系數(shù),為當前訓練無人機(id為)此時位置,為當前訓練無人機目標點位置,為無人機群此時位置向量組合起來的矩陣,為無人機群目標點位置向量組合起來的矩陣;其中,采用鏈式PPO訓練框架對編隊中的無人機進行多輪訓練,得到每架無人機的路徑規(guī)劃和避障任務的最優(yōu)策略,包括:將編隊中的第一架無人機作為當前訓練的無人機;將當前訓練的無人機的局部觀測狀態(tài)作為當前訓練的無人機的策略網(wǎng)絡的輸入,并增加啟發(fā)式信息作為指引,該策略網(wǎng)絡輸出動作值,將該動作作用到無人機后與訓練環(huán)境進行交互,通過交互來收集經(jīng)驗和長期累積多類不同獎勵,計算每個批次的策略梯度,再進行梯度裁剪并更新策略網(wǎng)絡參數(shù);將當前訓練的無人機的局部觀測狀態(tài)輸入到當前訓練的無人機的價值網(wǎng)絡中,輸出Q值對當前狀態(tài)進行評估;計算每個樣本在不同狀態(tài)下采取不同動作的最小值函數(shù)估計值,更新目標點的值函數(shù),再以損失函數(shù)來更新價值網(wǎng)絡參數(shù);編隊中非當前訓練的無人機基于各自的局部觀測狀態(tài)和固定策略輸出各自動作量到訓練環(huán)境中進行無人機狀態(tài)更新;當前訓練的無人機訓練后,該無人機加載訓練后的模型,然后選擇編隊中與當前訓練的無人機最近鄰的無人機作為當前訓練的無人機,繼續(xù)進行訓練,直到遍歷完編隊中所有無人機為止,進入下一輪訓練中,直到滿足預設終止條件為止,得到每架無人機的路徑規(guī)劃和避障任務的最優(yōu)策略。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯(lián)系本專利的申請人或專利權人中國人民解放軍國防科技大學,其通訊地址為:410073 湖南省長沙市開福區(qū)德雅路109號;或者聯(lián)系龍圖騰網(wǎng)官方客服,聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。
1、本報告根據(jù)公開、合法渠道獲得相關數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發(fā)布本報告當日的職業(yè)理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據(jù)或者憑證。