恭喜重慶大學唐小林獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網恭喜重慶大學申請的專利基于值分布強化學習的自動駕駛汽車決策規劃方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN114707359B 。
龍圖騰網通過國家知識產權局官網在2025-03-21發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202210487160.8,技術領域涉及:G06F30/20;該發明授權基于值分布強化學習的自動駕駛汽車決策規劃方法是由唐小林;鐘桂川;楊凱;陳永力;鄧忠偉;彭穎;胡曉松;李佳承設計研發完成,并于2022-05-06向國家知識產權局提交的專利申請。
本基于值分布強化學習的自動駕駛汽車決策規劃方法在說明書摘要公布了:本發明涉及一種基于值分布強化學習的自動駕駛汽車決策規劃方法,屬于自動駕駛汽車領域。該方法包括:S1:構建考慮不確定性的無信號燈十字路口場景;S2:構建全參數化分位數函數模型,作為自動駕駛汽車控制模型;S3:基于全參數化分位數函數模型中學習的狀態?動作回報分布信息,引入條件風險價值,生成具有風險意識的駕駛行為。本發明利用值分布強化學習提高了自動駕駛汽車在具有不確定性的環境下決策規劃策略的安全性與穩定性。
本發明授權基于值分布強化學習的自動駕駛汽車決策規劃方法在權利要求書中公布了:1.一種基于值分布強化學習的自動駕駛汽車決策規劃方法,其特征在于,該方法具體包括以下步驟:S1:構建考慮不確定性的無信號燈十字路口場景,具體包括:建立遮擋模型,確定周圍車輛模型,建立周圍車輛類型分布;建立遮擋模型,具體包括:考慮十字路口兩側的遮擋,通過分析周圍車輛與自車以及十字路口中心的相對位置關系,根據幾何關系,計算出周圍車輛能被自車觀測到的臨界距離d,以此作為判斷周圍車輛是否被遮擋的臨界條件: 其中,l為每條車道寬度,d′為自車車頭到十字路口中心點的距離,為道路邊界到遮擋物的距離,d為周圍車輛車頭至十字路口中心點的距離;確定周圍車輛模型,具體包括:周圍車輛的行為由智能駕駛員模型控制: 其中,a為加速度,amax為最大加速度,v為車輛縱向速度,vtarget為車輛縱向期望速度,m為加速度參數,dtarget為車輛縱向期望距離,d0為車輛縱向最小距離,T0為車輛最小碰撞時間,Δv為與前車的相對速度;建立周圍車輛類型分布:為使自車能夠根據不同駕駛員類型做出不同決策,規定仿真環境中,周圍車輛包括激進Aggressive、保守Conservative和正常Normal三種類型,每種類型的車輛在每一個時間步,分別以概率:Paggressive=0.2,Pconservative=0.3,Pnormal=0.5添加到環境中,周圍車輛類型空間為: S2:構建全參數化分位數函數模型,作為自動駕駛汽車控制模型,具體包括以下步驟:S21:構建分位數提議網絡:以狀態信息作為網絡輸入,輸出每個狀態-動作對應的最優分位點τ;S22:構建分位數值網絡:將由分位數提議網絡得到的最優分位點作為分位數值網絡的輸入,映射得到對應當前狀態下,各個分位點對應的分位函數值;S23:構建狀態空間S:以周圍車輛的位置、速度、航向角以及自車的位置、速度及航向角作為自車可觀測的狀態信息,值分布強化學習基于自車觀測信息進行下一步的決策規劃;S24:構建動作空間A:動作空間定義為自車可執行動作的集合,為值分布強化學習網絡的輸出值,此處自車的動作空間包括加速、巡航和減速三個離散動作值;其中加速和減速兩個動作的具體加速度由智能駕駛員模型計算得到;S25:設計獎勵函數,總獎勵等于碰撞獎勵Rcollision、完成任務的獎勵Rsuccess以及超時獎勵Rtimeout三部分之和;S26:根據當前狀態St,執行動作At,將自車執行動作后所得到的訓練數據St,At,Rt,St+1添加至經驗池;S27:擬合回報分布:通過N個混合Dirac函數的加權值,擬合回報的分布: 其中,N為分位點數目,τi為分位數提議網絡生成的分位點,滿足τi-1τi,且τ0=0,τN=1,為當前狀態s,a下參數θi的Dirac函數;S28:更新分位數提議網絡:通過最小化1-Wasserstein距離,更新分位數提議網絡,以確定最優的分位點τ,具體包括以下步驟:S281:1-Wasserstein距離公式為: 其中,N為分位點數目,ω為神經網絡參數,為分位點對應的分位數函數值,S282:利用帶有分位數網絡參數ω2的分位數值函數作為當前狀態下真實的分位數值函數;S283:通過對分位數提議網絡的參數ω1利用梯度下降以最小化1-Wasserstein距離: S284:全參數化分位數函數的回報期望為:S29:更新分位數值網絡:分位數值網絡的更新目標是,最小化分位數回歸Huber-loss,并以梯度下降法更新分位數值網絡;S3:基于全參數化分位數函數模型中學習到的狀態-動作回報分布信息,引入條件風險價值,生成具有風險意識的駕駛行為。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人重慶大學,其通訊地址為:400044 重慶市沙坪壩區沙坪壩正街174號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。