国产精品天干天干在线播放,大尺度揉捏胸床戏视频,樱花草www日本在线观看,狠狠躁夜夜躁人人爽天天天天97

Document
拖動滑塊完成拼圖
個人中心

預(yù)訂訂單
服務(wù)訂單
發(fā)布專利 發(fā)布成果 人才入駐 發(fā)布商標 發(fā)布需求

在線咨詢

聯(lián)系我們

龍圖騰公眾號
首頁 專利交易 科技果 科技人才 科技服務(wù) 國際服務(wù) 商標交易 會員權(quán)益 IP管家助手 需求市場 關(guān)于龍圖騰
 /  免費注冊
到頂部 到底部
清空 搜索
當前位置 : 首頁 > 專利喜報 > 恭喜成都數(shù)默科技有限公司王偉旭獲國家專利權(quán)

恭喜成都數(shù)默科技有限公司王偉旭獲國家專利權(quán)

買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監(jiān)控用IP管家,真方便!

龍圖騰網(wǎng)恭喜成都數(shù)默科技有限公司申請的專利一種智能體思維鏈的強化學(xué)習(xí)獎罰機制設(shè)計方法獲國家發(fā)明授權(quán)專利權(quán),本發(fā)明授權(quán)專利權(quán)由國家知識產(chǎn)權(quán)局授予,授權(quán)公告號為:CN119783760B

龍圖騰網(wǎng)通過國家知識產(chǎn)權(quán)局官網(wǎng)在2025-05-27發(fā)布的發(fā)明授權(quán)授權(quán)公告中獲悉:該發(fā)明授權(quán)的專利申請?zhí)?專利號為:202510283750.2,技術(shù)領(lǐng)域涉及:G06F16/3332;該發(fā)明授權(quán)一種智能體思維鏈的強化學(xué)習(xí)獎罰機制設(shè)計方法是由王偉旭;陳鵬;嚴得榮設(shè)計研發(fā)完成,并于2025-03-11向國家知識產(chǎn)權(quán)局提交的專利申請。

一種智能體思維鏈的強化學(xué)習(xí)獎罰機制設(shè)計方法在說明書摘要公布了:本發(fā)明公開了一種智能體思維鏈的強化學(xué)習(xí)獎罰機制設(shè)計方法,屬于人工智能技術(shù)領(lǐng)域,包括以下步驟:S1、狀態(tài)與動作定義;S2、子任務(wù)狀態(tài)與動作規(guī)劃;S3、思維鏈路徑構(gòu)建;S4、思維鏈步驟獎罰機制;S5、思維鏈路徑獎罰機制。本發(fā)明思維鏈中的每一個步驟都能夠得到即時的獎罰,以精確指導(dǎo)每一步的決策,同時在任務(wù)結(jié)束后再通過獎罰機制提供整體評價,使智能體在面對復(fù)雜問題時,能夠極大的提高任務(wù)執(zhí)行準確度。

本發(fā)明授權(quán)一種智能體思維鏈的強化學(xué)習(xí)獎罰機制設(shè)計方法在權(quán)利要求書中公布了:1.一種智能體思維鏈的強化學(xué)習(xí)獎罰機制設(shè)計方法,其特征在于,包括以下步驟:S1、狀態(tài)與動作定義定義智能體的當前狀態(tài)和可執(zhí)行動作;S2、子任務(wù)狀態(tài)與動作規(guī)劃根據(jù)上一個子任務(wù)的執(zhí)行結(jié)果,規(guī)劃下一個子任務(wù)的狀態(tài)和下一個子任務(wù)的動作,將每個子任務(wù)的執(zhí)行結(jié)果作為下一步任務(wù)的輸入;S3、思維鏈路徑構(gòu)建定義思維鏈路徑,由多組狀態(tài)-動作對組成,路徑從初始狀態(tài)到目標狀態(tài),智能體通過每一步的推理和決策推進任務(wù)進展;S4、思維鏈步驟獎罰機制在思維鏈路徑中的每個步驟設(shè)置獎罰機制,并計算即時獎罰,通過多維度獎罰機制進行評估,計算得到思維鏈步驟總評分;S5、思維鏈路徑獎罰機制設(shè)計多個路徑獎懲維度對路徑性質(zhì)進行評估,計算得到思維鏈路徑性質(zhì)總評分,并結(jié)合思維鏈步驟總評分得到總的獎罰函數(shù);所述S1中,當前狀態(tài)包括用戶問題、上下文信息和歷史交互記錄,當前狀態(tài),可執(zhí)行動作包括提問、搜索、推理和生成回答,可執(zhí)行動作;所述S4中,在思維鏈路徑中的每個步驟設(shè)置獎罰機制是指設(shè)置正確性獎罰、相關(guān)性獎罰和信息密度獎罰;所述S4中,即時獎罰通過式1計算; 式1;其中,為即時獎罰,為正確性獎罰的權(quán)重,為正確性獎罰,為相關(guān)性獎罰的權(quán)重,為相關(guān)性獎罰,為信息密度獎罰的權(quán)重,為信息密度獎罰;所述S4中,思維鏈步驟總評分通過式2計算; 式2;其中,為思維鏈步驟總評分,為路徑的終止時間步;所述S5中,思維鏈路徑性質(zhì)總評分通過式3計算; 式3;其中,為思維鏈路徑性質(zhì)總評分,為線性懲罰,為路徑多樣性獎罰,為路徑調(diào)和評估度。

如需購買、轉(zhuǎn)讓、實施、許可或投資類似專利技術(shù),可聯(lián)系本專利的申請人或?qū)@麢?quán)人成都數(shù)默科技有限公司,其通訊地址為:610000 四川省成都市中國(四川)自由貿(mào)易試驗區(qū)成都高新區(qū)天府大道北段28號1棟2單元15層06號;或者聯(lián)系龍圖騰網(wǎng)官方客服,聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。

免責(zé)聲明
1、本報告根據(jù)公開、合法渠道獲得相關(guān)數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準確性。
2、報告中的分析和結(jié)論僅反映本公司于發(fā)布本報告當日的職業(yè)理解,僅供參考使用,不能作為本公司承擔(dān)任何法律責(zé)任的依據(jù)或者憑證。
主站蜘蛛池模板: 天柱县| 慈溪市| 万山特区| 瑞丽市| 五大连池市| 合山市| 阿坝县| 木里| 得荣县| 秀山| 安庆市| 韶关市| 那曲县| 乐都县| 昭觉县| 隆回县| 射阳县| 乐安县| 长沙市| 万宁市| 资中县| 荣昌县| 万源市| 高青县| 泰和县| 马鞍山市| 遂溪县| 凌云县| 花垣县| 长春市| 武川县| 武安市| 西乌| 吴忠市| 富宁县| 衡阳市| 洮南市| 禄劝| 伊宁县| 石渠县| 肥西县|