恭喜上海浦東發(fā)展銀行股份有限公司陳廣浩獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監(jiān)控用IP管家,真方便!
龍圖騰網(wǎng)恭喜上海浦東發(fā)展銀行股份有限公司申請的專利智能體訓練方法、裝置、計算機設備和存儲介質(zhì)獲國家發(fā)明授權專利權,本發(fā)明授權專利權由國家知識產(chǎn)權局授予,授權公告號為:CN113919482B 。
龍圖騰網(wǎng)通過國家知識產(chǎn)權局官網(wǎng)在2025-05-06發(fā)布的發(fā)明授權授權公告中獲悉:該發(fā)明授權的專利申請?zhí)?專利號為:202111106047.2,技術領域涉及:G06N3/006;該發(fā)明授權智能體訓練方法、裝置、計算機設備和存儲介質(zhì)是由陳廣浩;楊洋;李鋒;張琛;萬化設計研發(fā)完成,并于2021-09-22向國家知識產(chǎn)權局提交的專利申請。
本智能體訓練方法、裝置、計算機設備和存儲介質(zhì)在說明書摘要公布了:本申請涉及一種智能體訓練方法、裝置、計算機設備和存儲介質(zhì)。該方法包括:獲取多個經(jīng)驗動作數(shù)據(jù),經(jīng)驗動作數(shù)據(jù)為進化種群中多個目標樣本智能體與環(huán)境交互學習的經(jīng)驗動作;基于多個經(jīng)驗動作數(shù)據(jù),獲取初始強化學習智能體輸出的動作數(shù)據(jù)的獎勵信息;根據(jù)獎勵信息和預設的損失函數(shù),對初始強化學習智能體的網(wǎng)絡參數(shù)進行更新;若初始強化學習智能體更新后的網(wǎng)絡參數(shù)與目標網(wǎng)絡參數(shù)相同,則結束對初始強化學習智能體的網(wǎng)絡參數(shù)的更新,得到訓練完成的強化學習智能體。本申請將進化算法和深度強化學習相結合,可以提高深度強化學習的學習效率和效果,從而更好的控制強化智能體完成連續(xù)控制任務。
本發(fā)明授權智能體訓練方法、裝置、計算機設備和存儲介質(zhì)在權利要求書中公布了:1.一種智能體訓練方法,其特征在于,所述方法包括:獲取多個經(jīng)驗動作數(shù)據(jù),所述經(jīng)驗動作數(shù)據(jù)為進化種群中多個目標樣本智能體與環(huán)境交互學習的經(jīng)驗動作;所述經(jīng)驗動作數(shù)據(jù)包括所述目標樣本智能體交互環(huán)境的環(huán)境狀態(tài),以及所述目標樣本智能體響應于所述環(huán)境狀態(tài)后輸出的動作;所述智能體輸出的動作是控制機器人或自主交通工具的控制輸入的空間中的點;基于所述多個經(jīng)驗動作數(shù)據(jù),獲取初始強化學習智能體輸出的動作數(shù)據(jù)的獎勵信息;根據(jù)所述獎勵信息和預設的損失函數(shù),對所述初始強化學習智能體的網(wǎng)絡參數(shù)進行更新;若所述初始強化學習智能體更新后的網(wǎng)絡參數(shù)與目標網(wǎng)絡參數(shù)相同,則結束對所述初始強化學習智能體的網(wǎng)絡參數(shù)的更新,得到訓練完成的強化學習智能體。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯(lián)系本專利的申請人或專利權人上海浦東發(fā)展銀行股份有限公司,其通訊地址為:200001 上海市黃浦區(qū)中山東一路12號;或者聯(lián)系龍圖騰網(wǎng)官方客服,聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。
1、本報告根據(jù)公開、合法渠道獲得相關數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發(fā)布本報告當日的職業(yè)理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據(jù)或者憑證。