恭喜昆明理工大學王彬獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網恭喜昆明理工大學申請的專利基于動態獎勵的強化學習深空探測器自主任務規劃方法及系統獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN115018231B 。
龍圖騰網通過國家知識產權局官網在2025-03-21發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202111536074.3,技術領域涉及:G06Q10/0631;該發明授權基于動態獎勵的強化學習深空探測器自主任務規劃方法及系統是由王彬;毛維楊;柳景興設計研發完成,并于2021-12-15向國家知識產權局提交的專利申請。
本基于動態獎勵的強化學習深空探測器自主任務規劃方法及系統在說明書摘要公布了:本發明公開了一種基于動態獎勵的強化學習深空探測器自主任務規劃方法及系統,方法包括定義深空探測器任務規劃強化學習參數;構建智能體交互環境;構建策略網絡;訓練策略網絡;利用訓練好的策略網絡執行任務規劃。本發明把深空探測任務規劃中的時間約束、資源約束和時序約束融合在深空探測器任務規劃強化學習模型的訓練過程中,可保證深空探測器任務規劃過程中滿足多種約束,增強了深空探測器智能體對復雜環境的適應性,同時動態獎勵算法將資源約束、時間約束和時序約束融合在一起構建了即時獎勵模型,并據此定義損失函數更新策略梯度,在保證多約束條件的前提下加快了深空探測器自主任務規劃強化學習模型的收斂速度,減小了偏差,提高了自主任務規劃質量。
本發明授權基于動態獎勵的強化學習深空探測器自主任務規劃方法及系統在權利要求書中公布了:1.一種基于動態獎勵的強化學習深空探測器自主任務規劃方法,其特征在于:包括:S1、定義深空探測器任務規劃強化學習參數;S2、構建智能體交互環境;S3、構建策略網絡;S4、訓練策略網絡;S5、利用訓練好的策略網絡執行任務規劃;所述定義深空探測器任務規劃強化學習參數,包括:定義1、任務;任務用公式1表示:F={IF,NF,EFL,EFP,tFES,tFLE}1式中:F代表深空探測器可執行的科學任務;IF代表任務F的編號;NF代表任務F的名稱;EFL代表任務F的任務價值;EFP代表任務F的優先級;tFES代表任務F最早開始時間;tFLE代表任務F最晚開始時間;定義2、資源集;資源集表示深空探測器在執行動作的時候會用到的資源所組成的集合;用R表示,如公式2表示:R={r1,r2,...,ri,...,r|R|}2 式中:ri表示第i種資源;|R|表示集合R的元素個數,即表示資源的種類數量;代表第i種資源的編號;代表第i種資源的名字;代表第i種資源的剩余量;代表該第i種資源的類型,即該資源為可再生資源還是為不可再生資源;定義3、深空探測器狀態集;用S來表示深空探測器的狀態集,假設探測器一共有N個子系統;第j個子系統的狀態集用Sj表示,其狀態有|Sj|種;Sj表示為式4,S可表示為式5,具體為:Sj={sj1,sj2,...,sjk,...,Sj|Sj|}4S=S1∪S2∪...Sj...∪SN5式中:sjk表示第j個子系統的第k個狀態;|Sj|表示集合Sj的元素個數,即第j個子系統的狀態個數;Sj表示第j個子系統的狀態集;定義4、可執行動作;可執動作即為深空探測器可以執行的動作;用ajh表示,代表第j個子系統的第h個可執行動作,如公式6所示: 式中:代表動作ajh的編號;代動作ajh動持續時長;代表動作ajh消耗的資源集合;R代表深空探測器的資源集,是R的子集;定義5、深空探測器可執行動作集;用A來表示深空探測器可執行動作集;第j個子系統的可執行動作集用Aj表示,其種類有|Aj|種;Aj表示為式8,A表示為式9: A=A1∪A2∪...Aj...∪AN9式中:|Aj|表示集合的元素個數,即第j個子系統的可執行動作數;Aj表示第j個子系統的可執行動作集;定義6、深空探測器狀態轉換集;構建三元組為G=S,A,S;其中,G表示深空探測器狀態與動作的狀態轉換集合,S表示深空探測器狀態集,該集合中有|S|種狀態;A表示深空探測器可執行動作集,該集合有|A|種可執行動作;三元組的基本形式是sjk,ajh,sjk+1,其中sjk表示第j個子系統的第k個狀態,sjk+1表示第j個子系統執行了動作ajh后到達的第k+1個狀態;三元組G中的第一個元素sjk來自S,第二個元素ajh來自A,第三個元素sjk+1來自S;所述構建智能體交互環境,包括:深空探測器狀態空間庫、深空探測器動作空間庫、深空探測器狀態轉移空間庫;所述構建智能體交互環境,包括:深空探測器狀態空間庫:將深空探測器看成一個智能體,智能體的狀態定義為深空探測器中各子系統的狀態,即智能體狀態來自由深空探測器各子系統狀態組成的深空探測器狀態空間庫State,其中State=S;深空探測器動作空間庫:深空探測器的每個子系統都有可執行動作集,第j個子系統的可執行動作集為Aj,如公式8所示,該集合中的可執行動作ajh能使該子系統從狀態sjk到達sjk+1;當狀態為sjk的情況下智能體可執行動作集為Aj的子集Ajv,共有|Ajv|種,如公式10和11所示,深空探測器動作空間庫定義為Action如公式12所示: 式中:Ajv表示第j個子系統在第v個狀態時可執行的動作集,Aj表示第j個子系統的可執行動作集;由于Ajv是Aj的子集,所以Ajv中的元素來自Aj,|Ajv|表示第j個子系統在第v個狀態時可執行動作的個數,表示第j個子系統在第v個狀態時的第|Ajv|個可執行動作;Ajv表示第j個子系統的第v個狀態下的可執行動作集,深空探測器一共分為N個子系統,其中第N個子系統有|SN|種狀態;深空探測器狀態轉移空間庫;用三元組來定義深空探測器狀態轉移空間庫Transfer,該庫中包含的狀態轉移是指智能體執行某個動作后會從當前狀態轉移到另一個狀態,Transfer用公式13表示:Transfer={s11,a11,s12,...,sjk,ajh,sjk+1,...}13;所述構建策略網絡,包括;結合構建的智能體交互環境,定義一個4層的MLP策略網絡結構;其中網絡的輸入層是深空探測器智能體當前的狀態,用2個參數表示,隱含層共2層,每層40個節點,輸出是輸入層狀態下深空探測器智能體采取每個動作的概率;融合時間約束、資源約束與時序約束的損失函數的定義:時間約束:建立動作時間消耗矩陣T,如公式14、15所示,該矩陣保存了各個子系統的可執行動作的時間消耗情況,以滿足規劃過程中的時間約束;M=Max{|A1|,|A2|,...,|Aj|,...,|AN|}14 式中:|Aj|是深空探測器的第j個子系統的可執行動作數;M為深空探測器的N個子系統對應的可執行動作數中最大的動作數;T為動作時間消耗矩陣,tju為第j個子系統的第u個可執行動作所需要消耗的時間;對于任意一個子系統下,可執行動作不足M時,則對應所需要消耗的時間為-1;資源約束:建立動作資源消耗矩陣L,如公式16所示,該矩陣保存了各個子系統的可執行動作的資源消耗情況,以滿足規劃過程中的資源約束; 式中:rxy為第x個子系統的第y個可執行動作所需要消耗的資源;時序約束:對于深空探測器任務規劃中存在時序約束問題定義動作ajh的前序動作集合為前序動作集合包含了該動作被執行以前必須先執行的動作,如公式17所示: 式中:為A的子集;綜合以上資源、時間和時序約束,采用動態獎勵策略,即時獎勵Ym的計算如公式19所示: 式中:E表示深空探測智能體在進行一個Episode時候已規劃出的動作序列,Ym表示E中第m個動作為ajh時的即時獎勵,tjh、rjh分別表示第j個子系統的第h個可執行動作消耗的時間、消耗的資源;由此,當前選取的可執行動作的期望回報Gm定義如下: 式中:γ為折扣因子,0γ≤1,anm表示當前需要計算的Episode中可執行動作的總個數;根據策略梯度下降方法構造如公式21所示的損失函數; 式中:agh為當前選取的動作,πθajh|sjk為動作預測的策略;所述訓練策略網絡,包括:從智能體交互環境中的深空探測器狀態空間庫中定義任務的終止狀態sow;其中,sow表示第o個子系統的第w個狀態;從智能體交互環境中的深空探測器狀態空間庫中隨機生成一個初始狀態spq,然后利用構建的策略網絡規劃得到一組Episode,將一組Episode作為輸入,依據定義的公式21對策略網絡進行更新;直到策略網絡收斂,得到訓練完成的策略網絡;其中,spq表示第p個子系統的第q個狀態。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人昆明理工大學,其通訊地址為:650093 云南省昆明市五華區學府路253號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。