恭喜同濟大學李正浩獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網恭喜同濟大學申請的專利一種基于安全評論家的綠波車速跟蹤控制方法及系統獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN115185183B 。
龍圖騰網通過國家知識產權局官網在2025-03-21發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202210842581.8,技術領域涉及:G05B13/04;該發明授權一種基于安全評論家的綠波車速跟蹤控制方法及系統是由李正浩;高炳釗;褚洪慶;石文通;陳虹設計研發完成,并于2022-07-18向國家知識產權局提交的專利申請。
本一種基于安全評論家的綠波車速跟蹤控制方法及系統在說明書摘要公布了:本發明涉及一種基于安全評論家的綠波車速跟蹤控制方法,該方法包括以下步驟:步驟1:交通信息層通過傳感器和通信設施建立高精地圖,并收集道路信息和車輛信息;步驟2:車輛通過V2I通信設施與道路側的基礎設施進行通信,道路側根據路段通行狀態和路口交通信號控制信息得到指導綠波車速;步驟3:上層控制層通過建立的強化學習框架進行基于安全評論家函數強化學習算法的車速跟蹤控制:步驟4:下層控制模塊根據總需求力矩進行兼顧動力學與節能的綜合力矩分配,并將分配后的力矩輸出至車輛;步驟5:車輛的每個輪轂發動機按照分配的力矩進行驅動。與現有技術相比,本發明具有實現車輛保持對指導綠波車速的跟蹤進而提高路段通行效率等優點。
本發明授權一種基于安全評論家的綠波車速跟蹤控制方法及系統在權利要求書中公布了:1.一種基于安全評論家的綠波車速跟蹤控制方法,其特征在于,該方法包括以下步驟:步驟1:交通信息層通過傳感器和通信設施建立高精地圖,并收集道路信息和車輛信息;步驟2:車輛通過V2I通信設施與道路側的基礎設施進行通信,道路側根據路段通行狀態和路口交通信號控制信息得到指導綠波車速,并通過V2I通信設施將指導綠波車速傳遞至上層控制層;步驟3:上層控制層通過建立的強化學習框架進行基于安全評論家函數強化學習算法的車速跟蹤控制,并將獲取的目標加速度傳輸至下層控制模塊;步驟4:下層控制模塊根據總需求力矩進行兼顧動力學與節能的綜合力矩分配,并將分配后的力矩輸出至車輛;步驟5:車輛的每個輪轂發動機按照分配的力矩進行驅動,以實現車輛保持對指導綠波車速的跟蹤,進而提高路段通行效率;所述的步驟3中,上層控制層通過建立的強化學習框架進行基于安全評論家函數強化學習算法的車速跟蹤控制的過程具體為:步驟301:將指導綠波車速、車輛縱向速度、縱向加速度以及車輛運動參數和路況信息輸入至智能體,并輸出目標加速度,完成一次迭代;步驟302:車輛根據目標加速度更新驅動力矩,從而完成智能體與環境的交互;步驟303:智能體接收新的環境信息和反饋,并基于安全評論家函數強化學習算法進行強化學習,即將強化學習分為兩個階段,分別為預訓練階段和微調階段,在預訓練階段中,同時訓練一個安全評論家和一個策略,使得智能體能夠自由探索不安全行為,安全評論家得到判斷不安全行為的條件,在微調階段中,采用新的目標訓練任務訓練策略,并采用預訓練階段中得到的安全評論家限制策略的更新與動作的選擇,即將預訓練階段中得到的策略用于目標訓練任務,對于目標訓練任務,智能體避免對不安全行為的訪問,策略根據訓練得到的安全評論家選擇安全行為,屏蔽掉不安全行為,若沒有安全行為,則選擇失敗概率最低的行為,以避免局部最優的策略,進而正確地根據外界信息獲取目標加速度;所述的步驟303中,安全評論家函數強化學習算法具體為:安全評論家函數強化學習算法將強化學習分為兩個階段,分別為預訓練階段和微調階段,在預訓練階段中,同時訓練一個安全評論家和一個策略,使得智能體能夠自由探索不安全行為,安全評論家得到判斷不安全行為的條件,在微調階段中,采用新的目標訓練任務訓練策略,并采用預訓練階段中得到的安全評論家限制策略的更新與動作的選擇,即將預訓練階段中得到的策略用于目標訓練任務,對于目標訓練任務,智能體避免對不安全行為的訪問,策略根據訓練得到的安全評論家選擇安全行為,屏蔽掉不安全行為,若沒有安全行為,則選擇失敗概率最低的行為;用于預訓練階段的馬爾可夫決策過程的定義表達式為:Tpre=S,A,Ppre,rpre,μpre,I其中,Tpre為預訓練環境,即預訓練階段,S為狀態空間,A為動作空間,Ppre為預訓練環境中的狀態轉移概率,rpre為預訓練環境中的獎勵函數,μpre為預訓練環境中的初始狀態分布,I為安全指示器,用以指示給定狀態是否安全;用于微調階段中目標訓練任務的馬爾可夫決策過程的定義表達式為:Ttarget=S,A,Ptarget,rtarget,μtarget,I其中,Ttaeget為目標訓練任務,Ptarget為目標訓練任務中的狀態轉移概率,rtarget為目標訓練任務中的獎勵函數,μtarget為目標訓練任務中的初始狀態分布,I為安全指示器;在安全的預訓練環境Tpre中進行預訓練后,智能體必須優化其在目標訓練任務Ttarget中的預期回報,同時盡量減少對不安全狀態的訪問,對于目標訓練任務,策略必須保證不訪問不安全狀態Sunsafe={s|Is=1}: 其中,Is=1代表不安全狀態,s為狀態,∈safe為目標安全閾值,T為總步數,為總的回報函數期望,Ist為當前時刻安全狀態,目標具體為保證即進入不安全狀態的概率小于安全閾值的前提下,最大化獎勵期望,st為t時刻的狀態,at為t時刻的動作,ρπ表示對應的狀態編譯;所述的預訓練階段的過程具體為:步驟a:定義目標安全閾值∈=∈safe;步驟b:在每次迭代中,從當前的動作受安全評論家約束的策略中收集數據,將數據放在緩沖區,采用緩沖區中的混合策略更新安全評論家并用最大熵強化學習算法更新策略;步驟c:迭代結束后,返回預訓練策略和安全評論家假設預訓練后得到的安全Q函數是最優的,能夠正確估計失效概率,則安全Q函數所述的步驟b中,安全評論家的表達式為: 其中,為安全評論家,用以評估策略π從狀態st開始采取動作at時到未來的失效概率,Ist為當前時刻安全狀態,Ppre為狀態轉移概率,γsafe為折扣因子,t′為t時刻的下一時刻,T為總步數,γsafe為折扣因子,Ist′為未來的安全狀態,表示當前時刻的下一時刻狀態由預訓練階段的狀態轉移概率函數決定,之后時刻的狀態由策略和狀態轉移概率函數決定;當安全評論家為二元分類器時,采用動態規劃訓練安全評論家,通過折扣因子γsafe限制過去的故障信號的傳播距離,累積折扣故障概率由貝爾曼方程估計,安全Q函數的表達式為: 其中,為安全Q函數,s′和a′分別為未來的某個狀態和動作,γsafe為折扣因子,表示該狀態由狀態轉移概率函數決定,該時刻動作由策略取樣決定;將安全Q函數采用參數ψ參數化為神經網絡,產生的目標為: 其中,Jsafeψ為回報期望,表示當前和未來的狀態-動作對的軌跡分布由策略π決定,為延時目標網絡對應的Q函數;基于SAC算法通過最大化策略的獎勵和熵鼓勵智能體進行探索,并在受安全評論家約束的混合策略下優化安全評論家,對于數據中的安全的狀態-動作對,從該點開始的后續行為將被限制為安全,從而產生可靠的目標標簽,避免安全評論家消極;在預訓練階段中,安全評論家與一個隨機的安全約束策略同時訓練,使安全約束策略對安全Q函數中的動作a取樣概率為0,設所有滿足條件的策略集合為建立任意策略到滿足條件的策略集合的映射為: 其中,π為任意的策略,為滿足約束條件的距離策略π最近的策略,即安全約束策略;根據安全評論家的定義,受安全Q函數約束的策略產生的動作的表達式為: 其中,為受安全Q函數約束的策略產生的動作,πa|s為原策略產生的動作,∈為安全Q函數的安全閾值,即目標安全閾值,表示若動作超過目標安全閾值的范圍,則拒絕該動作,通過將動作的輸出分布從π屏蔽到僅滿足安全閾值的采樣動作,以確保受約束的策略的安全;所述的微調階段的過程具體為:安全評論家強化學習算法將策略初始化為受安全約束的預訓練策略并微調到一個新的安全關鍵目標訓練任務Ttraget,為此,采用預訓練階段得到的安全評論家生成安全約束的馬爾可夫決策過程,在對目標訓練任務進行微調時,基于預訓練階段中的數據收集方法采用受安全評論家約束的策略收集所有數據,并根據目標訓練任務獎勵函數更新策略,為了使未約束策略π′對范圍內的動作進行采樣,其中,為滿足安全約束損失∈的策略分布,為滿足安全約束損失∈的策略,在標準SAC策略的目標中添加安全約束成本,同時優化預期回報,改進后的SAC策略的目標為: 其中,α和v分別為熵和安全約束的拉格朗日乘數,為目標熵,a′為未來的某個動作,表示策略初始化為預訓練得到的策略,未來的動作a′由策略π′θ采樣,θ為策略的參數;所述的步驟4中,下層控制模塊根據總需求力矩進行兼顧動力學與節能的綜合力矩分配的過程具體為:獲取目標加速度車輛實時的四輪轉速和縱向加速度,結合車輛的運動狀態以及電機損耗和輪胎滑移損耗計算得到分配給車輛的每個輪轂發動機的力矩;建立輪胎滑移能量損耗模型:Ps=FsVsJs=2Ps,r+Ps,f其中,Fs為輪胎接地面滑動區域縱向受力,即縱向滑移力,Vs為汽車縱向滑移速度,Ps為縱向滑移力功率,Js為摩擦損失的能量,Ps,f為前輪滑移損失功率,Ps,r為后輪滑移損失功率;建立輪轂電機損耗模型: Jm=2Ploss,r+Ploss,f其中,ηm為電機的效率,Pm為電機功率,Jm為電機能量損失,Ploss為輪轂電機損失功率,Ploss,r表示后輪輪轂電機損失功率,Ploss,f表示前輪輪轂電機損失功率;總能量消耗的表達式為:J=Js+Jm其中,J為總能量消耗;設置關于兼顧動力學與節能的綜合力矩分配的約束條件,并在約束條件下求解每個輪轂電機的驅動力矩;所述的約束條件為:Treq=2Tm,r+Tm,fTm,mimnmt≤Tm≤Tm,maxnmtnm,min≤nm≤nm,max其中,Tm,r與Tm,f分別表示后電機轉矩和前電機轉矩,Tm,mimnmt與Tm,maxnmt分別是電機的最小與最大扭矩,nm,min與nm,max分別是電機的最小與最大轉速,Treq為總電機轉矩,nm為電機轉速,Tm為單個電機的轉矩。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人同濟大學,其通訊地址為:200092 上海市楊浦區四平路1239號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。