恭喜中科南京人工智能創新研究院;中國科學院自動化研究所胡慶浩獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網恭喜中科南京人工智能創新研究院;中國科學院自動化研究所申請的專利一種離線強化學習和持續在線微調的決策方法和模型獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN119249360B 。
龍圖騰網通過國家知識產權局官網在2025-05-20發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202411767208.6,技術領域涉及:G06F18/25;該發明授權一種離線強化學習和持續在線微調的決策方法和模型是由胡慶浩;丁嘉慕;王培松;李成華;程健設計研發完成,并于2024-12-04向國家知識產權局提交的專利申請。
本一種離線強化學習和持續在線微調的決策方法和模型在說明書摘要公布了:本發明公開了一種離線強化學習和持續在線微調的決策方法和模型,該方法包括獲取原始文本?圖像對數據和歷史軌跡數據,通過特征匹配驗證和標準化處理得到增強狀態序列;利用多層級注意力機制進行序列預測,并通過知識蒸餾和任務適應性增強得到預訓練模型參數;基于穩定性評估和可塑性控制對模型進行在線知識遷移,結合經驗回放優化得到優化后模型參數;最后進行多維度性能評估和資源優化。本發明通過多模態特征融合、動態知識遷移和自適應優化機制,有效解決了特征表示不充分、災難性遺忘和優化效率低等問題,提高了模型的學習效率和泛化能力。
本發明授權一種離線強化學習和持續在線微調的決策方法和模型在權利要求書中公布了:1.一種離線強化學習和持續在線微調的決策方法,其特征在于,包括如下步驟:S1、獲取原始文本-圖像對數據,分別進行文本標準化處理和圖像增強編碼,得到標準化文本序列和標準化圖像特征;獲取歷史軌跡數據,包含狀態序列、動作序列和獎勵序列;將標準化文本序列、標準化圖像特征與狀態序列進行多模態融合,得到增強狀態序列;對增強狀態序列、動作序列和獎勵序列進行分布特征提取和校準處理,得到校準后狀態序列、校準后動作序列和校準后獎勵序列;基于校準后狀態序列、校準后動作序列和校準后獎勵序列,構建任務特征并計算相似度,得到任務相似度矩陣;S2、基于增強狀態序列、校準后動作序列、校準后獎勵序列和任務相似度矩陣,采用多層級注意力機制進行特征提取,得到融合注意力特征;基于融合注意力特征,構建分層預測網絡,進行序列預測,得到預測結果序列;基于預配置的初始模型和校準后狀態序列,構建記憶緩沖池,得到優化記憶池;基于優化記憶池,進行多任務知識蒸餾,得到學生模型參數;基于任務相似度矩陣,對學生模型參數進行任務適應性增強,得到適應性模型參數;基于預測結果序列和適應性模型參數,進行離線序列預測訓練,得到預訓練模型參數和代表性樣本集;S3、分析預訓練模型參數在歷史任務上的表現,得到穩定性評估報告;基于預存儲的新任務數據,計算可塑性需求,得到可塑性控制參數;基于穩定性評估報告和可塑性控制參數,對模型進行在線知識遷移,得到遷移后模型參數;基于遷移后模型參數、代表性樣本集和優化記憶池,進行經驗回放和參數優化,得到優化后模型參數;S4、基于優化后模型參數,進行多維度模型性能評估,得到綜合性能指標;基于綜合性能指標,動態調整模型參數,得到調優后參數;基于調優后參數,收集系統資源使用狀態,得到資源占用數據;基于資源占用數據,優化資源分配策略,得到優化配置參數;基于優化配置參數,監控系統運行狀態,檢測和處理異常情況,得到系統狀態報告。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人中科南京人工智能創新研究院;中國科學院自動化研究所,其通訊地址為:211135 江蘇省南京市江寧區創研路266號麒麟人工智能產業園3號樓3樓;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。