北京科技大學柯紅巖獲國家專利權(quán)
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監(jiān)控用IP管家,真方便!
龍圖騰網(wǎng)獲悉北京科技大學申請的專利一種中文不良言論檢測方法及系統(tǒng)獲國家發(fā)明授權(quán)專利權(quán),本發(fā)明授權(quán)專利權(quán)由國家知識產(chǎn)權(quán)局授予,授權(quán)公告號為:CN119377415B 。
龍圖騰網(wǎng)通過國家知識產(chǎn)權(quán)局官網(wǎng)在2025-05-20發(fā)布的發(fā)明授權(quán)授權(quán)公告中獲悉:該發(fā)明授權(quán)的專利申請?zhí)?專利號為:202411977154.6,技術(shù)領(lǐng)域涉及:G06F16/353;該發(fā)明授權(quán)一種中文不良言論檢測方法及系統(tǒng)是由柯紅巖;艾冬梅;郭遷遷;賀可太;徐晶設(shè)計研發(fā)完成,并于2024-12-31向國家知識產(chǎn)權(quán)局提交的專利申請。
本一種中文不良言論檢測方法及系統(tǒng)在說明書摘要公布了:本發(fā)明提供一種中文不良言論檢測方法及系統(tǒng),涉及言論檢測技術(shù)領(lǐng)域,方法包括:獲取包含不良言論的初始推文數(shù)據(jù)集;對初始推文數(shù)據(jù)集進行包括數(shù)據(jù)清洗和格式化的預處理;利用多模型一致性投票策略,對預處理后的初始推文數(shù)據(jù)集進行分類標注,獲得中文不良言論數(shù)據(jù)集;構(gòu)建中文不良言論檢測模型;將中文不良言論數(shù)據(jù)集輸入至中文不良言論檢測模型中進行訓練;獲取實時中文不良言論數(shù)據(jù)集;將中文不良言論數(shù)據(jù)集輸入至訓練后的中文不良言論檢測模型,輸出中文不良言論檢測結(jié)果。本發(fā)明提升了中文不良言論的檢測效果,確保模型能夠從多角度全面捕捉輸入樣本的本質(zhì)特征。
本發(fā)明授權(quán)一種中文不良言論檢測方法及系統(tǒng)在權(quán)利要求書中公布了:1.一種中文不良言論檢測方法,其特征在于,包括:S1:獲取包含不良言論的初始推文數(shù)據(jù)集;S2:對所述初始推文數(shù)據(jù)集進行預處理;S3:利用多模型一致性投票策略,對預處理后的初始推文數(shù)據(jù)集進行分類標注,獲得中文不良言論數(shù)據(jù)集;S4:構(gòu)建中文不良言論檢測模型,其中,所述中文不良言論檢測模型包括依次連接的數(shù)據(jù)增強模塊、R-Drop正則化模塊、雙通道分類任務(wù)模塊和對比學習模塊;S5:將所述中文不良言論數(shù)據(jù)集輸入至所述中文不良言論檢測模型中進行訓練;S6:獲取實時中文不良言論數(shù)據(jù)集;S7:將所述中文不良言論數(shù)據(jù)集輸入至訓練后的中文不良言論檢測模型,輸出中文不良言論檢測結(jié)果;其中,所述數(shù)據(jù)增強模塊包括BERT單元,所述BERT單元包含Dropout算法;所述S5具體包括:S501:基于所述中文不良言論數(shù)據(jù)集,通過所述BERT單元進行特征提取,得到數(shù)據(jù)特征;S502:利用所述Dropout算法,對所述數(shù)據(jù)特征進行數(shù)據(jù)增強,生成正樣本對;所述S502具體包括:S5021:利用所述Dropout算法,對所述數(shù)據(jù)特征進行雙重編碼,生成第一特征表示和第二特征表示,其中,表示第一特征表示,表示第二特征表示;S5022:將所述第一特征表示和所述第二特征表示作為所述中文不良言論數(shù)據(jù)集中同一個句子的不同增強特征,構(gòu)成對比學習的正樣本對,其中,所述第一特征表示和所述第二特征表示具有相關(guān)性;S503:將所述正樣本對輸入至所述R-Drop正則化模塊的分類器中,輸出所述正樣本對的預測分布: ;其中,表示第一預測分布,表示歸一化指數(shù)函數(shù),表示第二預測分布,W表示分類器的權(quán)重矩陣,b表示分類器的偏置項,表示第一特征表示,表示第二特征表示;S504:根據(jù)所述預測分布,計算KL散度損失和交叉熵損失;S505:將所述正樣本對輸入至所述雙通道分類任務(wù)模塊,生成最終分類結(jié)果;S506:通過所述對比學習模塊,生成對比學習損失: ;所述Lcl表示對比學習損失,sim表示特征間相似性,i=1,2,···,n,n表示中文不良言論數(shù)據(jù)集中參與損失計算的輸入句子數(shù)量τ表示溫度超參數(shù),J=1,2,···,N,N表示中文不良言論數(shù)據(jù)集中輸入句子的總數(shù)量,hj表示負樣本;S507:結(jié)合所述交叉熵損失、所述KL散度損失和所述對比學習損失,構(gòu)建總損失函數(shù): ;其中,Ltotal表示總損失函數(shù),Lkl表示KL散度損失,Lce表示交叉熵損失,表示超參數(shù);S508:利用梯度下降優(yōu)化算法調(diào)整所述中文不良言論檢測模型的參數(shù),直至總損失函數(shù)值小于預設(shè)損失函數(shù)值。
如需購買、轉(zhuǎn)讓、實施、許可或投資類似專利技術(shù),可聯(lián)系本專利的申請人或?qū)@麢?quán)人北京科技大學,其通訊地址為:100083 北京市海淀區(qū)學院路30號;或者聯(lián)系龍圖騰網(wǎng)官方客服,聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。
1、本報告根據(jù)公開、合法渠道獲得相關(guān)數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準確性。
2、報告中的分析和結(jié)論僅反映本公司于發(fā)布本報告當日的職業(yè)理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據(jù)或者憑證。