恭喜浙江大學王越獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網恭喜浙江大學申請的專利一種基于循環神經網絡的自評估機器人任務中錯誤可知的策略學習方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN115723132B 。
龍圖騰網通過國家知識產權局官網在2025-04-15發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202211451138.4,技術領域涉及:B25J9/16;該發明授權一種基于循環神經網絡的自評估機器人任務中錯誤可知的策略學習方法是由王越;許可淳;熊蓉設計研發完成,并于2022-11-20向國家知識產權局提交的專利申請。
本一種基于循環神經網絡的自評估機器人任務中錯誤可知的策略學習方法在說明書摘要公布了:本發明公開了一種基于循環神經網絡的自評估機器人任務中錯誤可知的策略學習方法。本發明針對具有自評估模塊的機器人任務可以在執行動作之前評估該動作的特性,充分利用動作的自評估結果,將其建模到錯誤可知的策略學習中,利用循環神經網絡隱式地編碼觀測和評估的記憶,使得策略本身具有基于之前的錯誤嘗試進行分布更新的能力,從而使得最終執行的動作更加安全可靠。相比于通用的排序策略,本發明考慮了之前嘗試的自評估結果對動作概率值分布的影響,從而可以再觀測不變的情況下根據已知的失敗更新策略分布,使得探索的次數盡可能少,更適用于機器人算法的在線調整。
本發明授權一種基于循環神經網絡的自評估機器人任務中錯誤可知的策略學習方法在權利要求書中公布了:1.一種基于循環神經網絡的自評估機器人任務中錯誤可知的策略學習方法,其特征在于,包括:步驟1:獲得任務觀測o;步驟2:根據預訓練的策略π0o網絡得到初始動作a0;步驟3:根據自評估模塊SA判斷所述的動作是否失敗;步驟4:如果失敗,則將該動作表征到基于動作的記憶矩陣mt中;步驟5:錯誤可知的策略πFA利用循環神經網絡處理基于動作的記憶矩陣mt得到新的動作分布,根據新的動作分布選擇具有最大概率值的動作at;步驟6:重復步驟3-5,如果步驟3中自評估模塊SA評估通過,則執行所述的動作;所述的步驟2中,預訓練的策略π0o為對應機器人任務在訓練數據上訓練得到的策略,所述的策略選擇的初始動作a0為該策略估計的具有最大概率值的動作;所述的步驟3中,自評估模塊SA由下式表示; 所述的步驟4中,基于動作的記憶矩陣mt是一個二值矩陣,每個元素表示對應動作的自評估結果;mt初始化為一個全1的矩陣,大小和動作空間大小一致,若某個動作被評估為失敗,那么該動作對應的元素將被置0;每嘗試一個動作失敗,mt被更新一次,直到選擇的動作通過自評估模塊SA的檢測;所述的步驟5中,錯誤可知的策略πFA由下式表示:at+1=πFAmt|o;θ;其中θ為πFA可學的網絡參數,所述的利用循環神經網絡處理記憶矩陣得到新的動作分布包括以下步驟:步驟51:當t=0時,針對初始觀測,利用觀測編碼器Eo編碼觀測o,當t0時,使用記憶編碼器Em得到基于動作的記憶矩陣mt,得到的編碼記為e; 步驟52:利用循環神經網絡GRU編碼e得到基于動作的特征;步驟53:使用解碼器D解碼得到動作概率分布,并選擇具有最大概率值的動作;
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人浙江大學,其通訊地址為:310058 浙江省杭州市西湖區余杭塘路866號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。