恭喜浙江萬維空間信息技術有限公司;浙江鏈企智能技術有限公司汪暉獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網恭喜浙江萬維空間信息技術有限公司;浙江鏈企智能技術有限公司申請的專利一種自然資源領域大模型評測集生成方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN119721511B 。
龍圖騰網通過國家知識產權局官網在2025-06-03發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202510233228.3,技術領域涉及:G06Q10/063;該發明授權一種自然資源領域大模型評測集生成方法是由汪暉;王麗琴;俞越;董彧;陸建波;卓一瑞;葛云鵬;麻澤武;佘東亮;侯玉文;劉仁楠;朱靖文設計研發完成,并于2025-02-28向國家知識產權局提交的專利申請。
本一種自然資源領域大模型評測集生成方法在說明書摘要公布了:本發明提供了一種自然資源領域大模型評測集生成方法,方法包括基于數據分布模型和標注模型,通過統計推斷獲得數據集的標注質量分布;將核密度估計的核函數數量設為自然資源領域數據源數量,對標注質量分布進行展開近似,確定各核函數的中心和帶寬;將各核函數中心作為無偏估計值,通過加權平均融合算法優化數據融合,獲得數據集標注質量的融合估計值。本發明可以提升數據集標注質量的準確性和可靠性,為大模型評測集的生成提供高質量的數據支持。
本發明授權一種自然資源領域大模型評測集生成方法在權利要求書中公布了:1.一種自然資源領域大模型評測集生成方法,其特征在于,包括:S1、基于數據分布模型和標注模型通過統計推斷獲得數據集的標注質量分布,其中所述數據分布模型包括非均勻數據分布,所述標注模型包括非標準標注噪聲;S2、將核密度估計的核函數數量設置為自然資源領域數據源的數量,通過核密度估計對所述標注質量分布進行展開近似,以確定各核函數各自的中心和帶寬;S3、將各所述核函數的中心分別作為無偏估計值,通過加權平均融合算法進行數據融合優化,以獲得數據集標注質量的融合估計值,基于標注質量選取數據構成數據集形成評測集;步驟S1中,基于所述數據分布模型和標注模型通過統計推斷獲得數據集的標注質量分布,包括:S11、建立數據分布模型和標注模型;S12、基于所述數據分布模型和標注模型根據統計推斷獲得所述標注質量分布;S13、通過核密度估計對所述非均勻數據分布和所述非標準標注噪聲進行加權近似,獲得所述非均勻數據分布和所述非標準標注噪聲各自的近似表示;S14、基于各非均勻分布和非標準標注噪聲的近似表示以及各非均勻分布和非標準標注噪聲與標注質量分布的關系以獲得標注質量分布的近似表示;步驟S12中,基于所述數據分布模型和標注模型根據統計推斷獲得所述標注質量分布;包括:基于上一個樣本的標注質量分布和數據分布模型進行預測獲得當前樣本的先驗分布;基于所述標注模型對所述當前樣本的先驗分布進行更新以獲得當前樣本的標注質量分布,計算方式為:將樣本k通過標注模型基于數據特征的標注值分布與基于上一個樣本的標注值的先驗分布的乘積除以基于上一個樣本的標注值的先驗分布;步驟S13中,分別通過核密度估計對所述非均勻數據分布和所述非標準標注噪聲進行加權近似,獲得所述非均勻數據分布和所述非標準標注噪聲各自的近似表示,包括:構建具有m個核函數的核密度估計模型;表示為: 其中,表示核密度估計模型,表示核函數,表示第i個核函數的中心,表示第i個核函數的帶寬;對所述核密度估計模型的各核函數進行加權求和以獲得所述非均勻數據分布和所述非標準標注噪聲各自的近似;所述非均勻數據分布的近似表示為: 其中,為非均勻數據分布的近似表示,為用于近似的核函數數量,為非均勻數據分布的近似表示中第i個核函數對應的權重;所述非標準標注噪聲的近似表示為: 其中,為非標準標注噪聲的近似表示,為用于近似的核函數數量,表示非標準標注噪聲的近似表示中第i個核函數對應的權重。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人浙江萬維空間信息技術有限公司;浙江鏈企智能技術有限公司,其通訊地址為:310000 浙江省杭州市濱江區西興街道月明路560號1幢2002室;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。