恭喜西安交通大學田鋒獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網恭喜西安交通大學申請的專利一種基于生成對抗用戶模型的強化學習路徑規劃方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN115249072B 。
龍圖騰網通過國家知識產權局官網在2025-05-30發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202210528946.X,技術領域涉及:G06N20/00;該發明授權一種基于生成對抗用戶模型的強化學習路徑規劃方法是由田鋒;朱海萍;馬黛露絲;廖思霽;劉啟東;陳妍;鄭慶華;王茜鶯;武亞強設計研發完成,并于2022-05-16向國家知識產權局提交的專利申請。
本一種基于生成對抗用戶模型的強化學習路徑規劃方法在說明書摘要公布了:本發明公開了一種基于生成對抗用戶模型的強化學習路徑規劃方法,屬于學習資源路徑規劃領域。一種基于生成對抗用戶模型的強化學習路徑規劃方法,包括以下步驟:1大數據驅動的用戶群與訓練數據集劃分;2基于分層獎勵函數強化學習的路徑規劃模型Planerui離線訓練;3基于級聯DQN算法完成路徑規劃。本發明提供的學習資源路徑能夠在完成至目標知識點的學習目標的同時,應對用戶每一步學習中興趣的變化。本發明能夠為用戶自適應地推薦路徑上的學習資源,該路徑規劃方法考慮了用戶學習過程中對學習資源的反饋以及學習資源本身的知識結構關系,實現學習資源路徑規劃。
本發明授權一種基于生成對抗用戶模型的強化學習路徑規劃方法在權利要求書中公布了:1.一種基于生成對抗用戶模型的強化學習路徑規劃方法,其特征在于,包括以下步驟:1)根據用戶學習日志獲取構建學習者相似度矩陣,利用譜聚類方法在學習者相似度矩陣上完成用戶學習行為類型聚類,得到類用戶學習行為類型,根據用戶學習行為類型可劃分得到每一種學習行為類型對應的訓練數據集;2)結合知識森林,構建基于分層獎勵函數強化學習的路徑規劃模型,所述基于分層獎勵函數強化學習的路徑規劃模型中的獎勵函數為序列決策獎勵和知識點規劃獎勵構成的兩層級的獎勵函數,并將用戶行為模型用作強化學習的環境,利用生成對抗訓練的形式訓練路徑規劃模型;3)以用戶學習行為類型、用戶歷史學習序列、目標知識點、學習資源集合及課程知識森林作為輸入,基于級聯DQN算法完成至目標知識點的學習資源路徑規劃,輸出規劃路徑;步驟2)構建基于分層獎勵函數強化學習的路徑規劃模型中,強化學習對應的馬爾科夫決策過程的五元組;其中,學習者作為環境,狀態表示學習者時刻前的歷史學習資源序列,動作表示時刻從所述時刻候選學習資源集合中選擇一個學習資源推薦給學習者,動作集則表示時刻為學習者推薦的長度為的學習資源路徑所對應的個動作集合;狀態轉移概率則對應在給定狀態和動作集時轉移到下一個狀態的概率,同時作為用戶動作的同等分布、獎勵函數以及折扣因子;將獎勵函數分解為序列決策獎勵和知識點規劃決策獎勵,即;在計算序列決策獎勵時,計算推薦子序列和實際交互子序列的序列層級準確度,如式(8): (8)式(8)中,代表序列決策精度,為實際交互子序列,為推薦的子序列,為子序列的一個長度為的子序列,代表所使用的長度為的子序列的個數;在計算知識點規劃決策獎勵函數時,考慮到所推薦學習資源與實際點擊的學習資源難度是否匹配,利用學習時長估計學習資源難度,如下所示: (9)式(9)中,用戶實際學習子序列為,預測用戶學習序列為,為用于表示用戶實際學習序列的表示向量,為用于表示預測的用戶學習序列的表示向量,序列表示向量通過對序列中每個學習資源的特征向量取均值計算得到,和分別用于表示實際和預測的用戶學習資源學習序列中第個學習資源的特征向量;表示第個學習資源的特征向量,表示該學習資源的默認學習時長,表示用戶在該學習資源上的學習時長。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人西安交通大學,其通訊地址為:710049 陜西省西安市咸寧西路28號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。