恭喜中國科學(xué)院自動化研究所張啟超獲國家專利權(quán)
買專利賣專利找龍圖騰,真高效! 查專利查商標(biāo)用IPTOP,全免費(fèi)!專利年費(fèi)監(jiān)控用IP管家,真方便!
龍圖騰網(wǎng)恭喜中國科學(xué)院自動化研究所申請的專利視覺變化環(huán)境的強(qiáng)化學(xué)習(xí)泛化方法及裝置獲國家發(fā)明授權(quán)專利權(quán),本發(fā)明授權(quán)專利權(quán)由國家知識產(chǎn)權(quán)局授予,授權(quán)公告號為:CN117973554B 。
龍圖騰網(wǎng)通過國家知識產(chǎn)權(quán)局官網(wǎng)在2025-03-21發(fā)布的發(fā)明授權(quán)授權(quán)公告中獲悉:該發(fā)明授權(quán)的專利申請?zhí)?專利號為:202311865731.8,技術(shù)領(lǐng)域涉及:G06N20/00;該發(fā)明授權(quán)視覺變化環(huán)境的強(qiáng)化學(xué)習(xí)泛化方法及裝置是由張啟超;孫敬博;趙冬斌設(shè)計研發(fā)完成,并于2023-12-29向國家知識產(chǎn)權(quán)局提交的專利申請。
本視覺變化環(huán)境的強(qiáng)化學(xué)習(xí)泛化方法及裝置在說明書摘要公布了:本發(fā)明提供一種視覺變化環(huán)境的強(qiáng)化學(xué)習(xí)泛化方法及裝置,包括:將當(dāng)前時刻智能體的原始狀態(tài)、當(dāng)前時刻智能體的動作、當(dāng)前時刻智能體的環(huán)境獎勵以及下一時刻智能體的原始狀態(tài)關(guān)聯(lián)存放于回放池中;使用增強(qiáng)函數(shù)對原始狀態(tài)進(jìn)行增強(qiáng),得到原始狀態(tài)對應(yīng)的增強(qiáng)狀態(tài);對原始狀態(tài)以及增強(qiáng)狀態(tài)分別加入顯著性引導(dǎo)信息,結(jié)合回放池中的數(shù)據(jù)以及增強(qiáng)狀態(tài)獲取智能體的價值一致性損失,基于價值一致性損失更新智能體的價值網(wǎng)絡(luò)及表征網(wǎng)絡(luò);獲取原始狀態(tài)以及增強(qiáng)狀態(tài)對應(yīng)的智能體的策略一致性損失,基于策略一致性損失更新智能體的策略網(wǎng)絡(luò);通過動力學(xué)模型獲取原始狀態(tài)以及增強(qiáng)狀態(tài)對應(yīng)的智能體的動力學(xué)損失,基于動力學(xué)損失更新智能體的表征網(wǎng)絡(luò)與動力學(xué)模型。
本發(fā)明授權(quán)視覺變化環(huán)境的強(qiáng)化學(xué)習(xí)泛化方法及裝置在權(quán)利要求書中公布了:1.一種視覺變化環(huán)境的強(qiáng)化學(xué)習(xí)泛化方法,應(yīng)用于基于視覺輸入進(jìn)行決策控制的智能體,其中,智能體的狀態(tài)為視覺輸入的圖像數(shù)據(jù),所述圖像數(shù)據(jù)描述智能體所關(guān)注的任務(wù),智能體的動作為控制目標(biāo)的控制變量,其特征在于,包括:將當(dāng)前時刻智能體的原始狀態(tài)、當(dāng)前時刻智能體的動作、當(dāng)前時刻智能體的環(huán)境獎勵以及下一時刻智能體的原始狀態(tài)關(guān)聯(lián)存放于回放池中;其中,在智能體行走控制任務(wù)中,動作為行走的關(guān)節(jié)控制變量,所述環(huán)境獎勵包括健康獎勵和前向行走獎勵;或者,在智能體倒立擺控制任務(wù)中,動作為倒立擺的關(guān)節(jié)控制變量,所述環(huán)境獎勵為處于倒立狀態(tài)的時間步數(shù);或者,在智能體在長方體環(huán)境中轉(zhuǎn)動控制任務(wù)中,動作為手指的關(guān)節(jié)控制變量,所述環(huán)境獎勵為手指與目標(biāo)點(diǎn)的距離;使用增強(qiáng)函數(shù)對所述回放池中的原始狀態(tài)進(jìn)行增強(qiáng),得到所述回放池中的原始狀態(tài)對應(yīng)的增強(qiáng)狀態(tài);對所述回放池中的原始狀態(tài)以及所述增強(qiáng)狀態(tài)分別加入顯著性引導(dǎo)信息,并結(jié)合所述回放池中的數(shù)據(jù)以及所述增強(qiáng)狀態(tài)獲取智能體的價值一致性損失,基于所述價值一致性損失更新智能體的價值網(wǎng)絡(luò)及表征網(wǎng)絡(luò);所述顯著性引導(dǎo)信息為與智能體所關(guān)注的任務(wù)相關(guān)的信息;獲取所述回放池中的原始狀態(tài)以及所述增強(qiáng)狀態(tài)對應(yīng)的智能體的策略一致性損失,基于所述策略一致性損失更新智能體的策略網(wǎng)絡(luò);所述策略一致性損失是基于原始狀態(tài)下的策略分布與增強(qiáng)狀態(tài)下的策略分布之間的KL散度得到的;通過動力學(xué)模型獲取所述回放池中的原始狀態(tài)以及所述增強(qiáng)狀態(tài)對應(yīng)的智能體的動力學(xué)損失,基于所述動力學(xué)損失更新智能體的表征網(wǎng)絡(luò)與動力學(xué)模型;所述通過動力學(xué)模型獲取所述回放池中的原始狀態(tài)以及所述增強(qiáng)狀態(tài)對應(yīng)的智能體的動力學(xué)損失,包括:通過動力學(xué)模型,獲取所述回放池中的原始狀態(tài)對應(yīng)的第一動力學(xué)損失;通過動力學(xué)模型,獲取所述增強(qiáng)狀態(tài)對應(yīng)的第二動力學(xué)損失;根據(jù)所述第一動力學(xué)損失以及所述第二動力學(xué)損失,得到智能體的動力學(xué)損失;其中,所述動力學(xué)模型包括狀態(tài)轉(zhuǎn)移預(yù)測網(wǎng)絡(luò)、獎勵預(yù)測網(wǎng)絡(luò)以及智能體的表征網(wǎng)絡(luò),所述狀態(tài)轉(zhuǎn)移預(yù)測網(wǎng)絡(luò)用于根據(jù)當(dāng)前狀態(tài)與動作預(yù)測下一狀態(tài),所述獎勵預(yù)測網(wǎng)絡(luò)用于根據(jù)當(dāng)前狀態(tài)與動作預(yù)測獎勵。
如需購買、轉(zhuǎn)讓、實施、許可或投資類似專利技術(shù),可聯(lián)系本專利的申請人或?qū)@麢?quán)人中國科學(xué)院自動化研究所,其通訊地址為:100190 北京市海淀區(qū)中關(guān)村東路95號;或者聯(lián)系龍圖騰網(wǎng)官方客服,聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。
1、本報告根據(jù)公開、合法渠道獲得相關(guān)數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準(zhǔn)確性。
2、報告中的分析和結(jié)論僅反映本公司于發(fā)布本報告當(dāng)日的職業(yè)理解,僅供參考使用,不能作為本公司承擔(dān)任何法律責(zé)任的依據(jù)或者憑證。
- 恭喜冷王公司馬克·D·利熱獲國家專利權(quán)
- 恭喜泰寧縣祥泰新能源有限公司楊太遠(yuǎn)獲國家專利權(quán)
- 恭喜國網(wǎng)山西省電力公司晉中供電公司要糧安獲國家專利權(quán)
- 恭喜云南大學(xué)申東婭獲國家專利權(quán)
- 恭喜斯法夫股份有限公司克爾斯特·阿薩諾維奇獲國家專利權(quán)
- 恭喜湖南聯(lián)塑科技實業(yè)有限公司楊向榮獲國家專利權(quán)
- 恭喜橫店集團(tuán)英洛華電氣有限公司徐向軍獲國家專利權(quán)
- 恭喜大連富森智能科技有限公司羅連富獲國家專利權(quán)
- 恭喜索尼半導(dǎo)體解決方案公司山下浩史獲國家專利權(quán)
- 恭喜珠海格力電器股份有限公司李秋雨獲國家專利權(quán)


熱門推薦
- 恭喜中國工程物理研究院流體物理研究所付佳斌獲國家專利權(quán)
- 恭喜浙江省機(jī)電設(shè)計研究院有限公司邵中魁獲國家專利權(quán)
- 恭喜青島海信日立空調(diào)系統(tǒng)有限公司于德彤獲國家專利權(quán)
- 恭喜OPPO廣東移動通信有限公司張海裕獲國家專利權(quán)
- 恭喜中石化石油工程技術(shù)服務(wù)有限公司龐應(yīng)剛獲國家專利權(quán)
- 恭喜合芯磁導(dǎo)科技(無錫)有限公司朱浩宇獲國家專利權(quán)
- 恭喜佛山市石井旅游制品有限公司周曉峰獲國家專利權(quán)
- 恭喜泰連公司M.托達(dá)獲國家專利權(quán)
- 恭喜河北奧冠電源有限責(zé)任公司孟祥輝獲國家專利權(quán)
- 恭喜京東方科技集團(tuán)股份有限公司文平獲國家專利權(quán)