恭喜北京沃東天駿信息技術有限公司;北京京東世紀貿易有限公司張玉皓獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網恭喜北京沃東天駿信息技術有限公司;北京京東世紀貿易有限公司申請的專利一種文本樣本處理方法、裝置、設備和介質獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN113408301B 。
龍圖騰網通過國家知識產權局官網在2025-05-23發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202110785709.7,技術領域涉及:G06F18/214;該發明授權一種文本樣本處理方法、裝置、設備和介質是由張玉皓;李薛設計研發完成,并于2021-07-12向國家知識產權局提交的專利申請。
本一種文本樣本處理方法、裝置、設備和介質在說明書摘要公布了:本發明實施例公開了一種文本樣本處理方法、裝置、設備和介質,其中,方法包括:獲取預設文本匹配模型的初始訓練樣本,并對所述初始訓練樣本中的查詢文本進行聚類處理,其中,所述查詢文本為輸入至所述預設文本匹配模型中的關鍵字;根據聚類處理的結果及各初始訓練樣本的時間戳,對所述初始訓練樣本中負樣本進行去重和修正,得到目標模型訓練樣本。解決了現有技術中采集到的預設文本匹配模型的訓練樣本數據中負樣本標簽錯誤及重復率高,導致樣本數據質量低的問題,實現了根據初始訓練樣本中查詢文本相似度及樣本時間戳進行樣本去重,提升預設文本匹配模型的訓練樣本的質量。
本發明授權一種文本樣本處理方法、裝置、設備和介質在權利要求書中公布了:1.一種文本樣本處理方法,其特征在于,所述方法包括:獲取預設文本匹配模型的初始訓練樣本,并對所述初始訓練樣本中的查詢文本進行聚類處理,其中,所述查詢文本為輸入至所述預設文本匹配模型中的關鍵字;根據聚類處理的結果及各初始訓練樣本的時間戳,對所述初始訓練樣本中負樣本進行去重和修正,得到目標模型訓練樣本;所述根據聚類處理的結果及各初始訓練樣本的時間戳,對所述初始訓練樣本中負樣本進行去重和修正,包括:針對聚類結果中屬于同一類的文本向量,根據各文本向量對應初始訓練樣本的時間戳對各初始訓練樣本進行分組;當同一個分組中的初始訓練樣本同時包括正樣本和負樣本時,將該分組中負樣本修正為正樣本,并將修正后的各正樣本去重為一條正樣本;當同一個分組中的初始訓練樣本均為負樣本時,將各負樣本去重為一條負樣本。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人北京沃東天駿信息技術有限公司;北京京東世紀貿易有限公司,其通訊地址為:100176 北京市大興區北京經濟技術開發區科創十一街18號院2號樓4層A402室;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。