恭喜貝殼找房(北京)科技有限公司王文彬獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網恭喜貝殼找房(北京)科技有限公司申請的專利基于強化學習策略的人機交互訓練方法及裝置獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN114417086B 。
龍圖騰網通過國家知識產權局官網在2025-05-13發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202111521730.2,技術領域涉及:G06F16/9032;該發明授權基于強化學習策略的人機交互訓練方法及裝置是由王文彬;馮偉設計研發完成,并于2021-12-13向國家知識產權局提交的專利申請。
本基于強化學習策略的人機交互訓練方法及裝置在說明書摘要公布了:本申請提供一種基于強化學習策略的人機交互訓練方法及裝置,該方法包括:獲取以目標樣本集為訓練樣本訓練得到的第一模型;所述目標樣本集包括多個交互過程的交互內容;構建第二模型,使用所述第二模型與所述第一模型模擬即時通信交互過程;在所述第二模型與所述第一模型的交互過程中,所述第二模型輸出回復內容,基于所述第二模型輸出的回復內容對所述交互過程的評價指標的影響程度,調整所述第二模型的參數;將參數優化后的第二模型確定為目標模型;其中,所述評價指標用于指示所述交互過程能夠實現預設目標的概率。
本發明授權基于強化學習策略的人機交互訓練方法及裝置在權利要求書中公布了:1.一種基于強化學習策略的人機交互訓練方法,其特征在于,包括:獲取以目標樣本集為訓練樣本訓練得到的第一模型;所述目標樣本集包括多個交互過程的交互內容;構建第二模型,使用所述第二模型與所述第一模型模擬即時通信交互過程;在所述第二模型與所述第一模型的交互過程中,所述第二模型輸出回復內容,基于所述第二模型輸出的回復內容對所述交互過程的評價指標的影響程度,調整所述第二模型的參數;將參數優化后的第二模型確定為目標模型;其中,所述評價指標用于指示所述交互過程能夠實現用戶轉委托的概率;所述基于所述第二模型輸出的回復內容對所述交互過程的評價指標的影響程度,調整所述第二模型的參數,包括:在所述第二模型為生成模型的情況下,根據第二回報函數計算所述第二模型輸出的內容對所述評價指標的影響程度,并基于所述影響程度調整所述第二模型的參數;所述第二回報函數包括:用于度量一個概率分布或概率模型預測樣本好壞程度的困惑度,用于度量生成有意義回復的互信息,用于降低模型生成重復歷史對話信息的重復懲罰項,用于提高對話輪數的參數、用于檢測用戶說的話是否轉委托的參數以及用于計算用戶轉委托概率的參數;所述用戶轉委托概率的參數是通過第三模型計算得到的;所述第三模型為基于以下步驟計算用戶轉委托的概率:將所述模擬即時通信交互產生的對話內容進行分割后輸入到Bert模型中,得到每個句子的句子向量;將每個句子的句子向量輸入到長短期記憶網絡中,得到每個句子的上下文向量;將每個句子的上下文向量與每個句子對用戶轉委托概率的影響進行綜合計算,得到每個句子對應的轉委托的概率;其中,每個句子對用戶轉委托概率的影響為:基于句子對應模型輸出的內容得到的;句子對應模型包括:所述第一模型,或,所述第二模型。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人貝殼找房(北京)科技有限公司,其通訊地址為:100080 北京市海淀區創業路2號1幢1層102室;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。