恭喜杭州電子科技大學曹九穩獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網恭喜杭州電子科技大學申請的專利一種基于深度語言模型和模板定制的醫學語料擴充方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN114678095B 。
龍圖騰網通過國家知識產權局官網在2025-04-29發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202210399534.0,技術領域涉及:G16H10/60;該發明授權一種基于深度語言模型和模板定制的醫學語料擴充方法是由曹九穩;張宇;王天磊;劉鵬;向建發設計研發完成,并于2022-04-15向國家知識產權局提交的專利申請。
本一種基于深度語言模型和模板定制的醫學語料擴充方法在說明書摘要公布了:本發明公開了一種基于深度語言模型和模板定制的醫學語料擴充方法,針對醫療領域語料中疾病、藥品、器械的專業名詞比其他場景多等問題,本發明采用模板定制的方法,提高了醫療專業名詞在生成語料中出現的概率。針對不同種類疾病、不同科室之間,名詞術語差異性大,而分別針對不同疾病、不同科室進行手工制作大規模模板是不現實的問題,本發明采用深度語言模型從相近或相關的域外文本數據集中自動的生成大量的、多樣的醫療模板句子,從而有效地擴充醫療語料庫,降低了人工采集數據花費的時間與經濟成本。
本發明授權一種基于深度語言模型和模板定制的醫學語料擴充方法在權利要求書中公布了:1.一種基于深度語言模型和模板定制的醫學語料擴充方法,其特征在于,步驟如下:步驟1:構建初始醫療文本數據集和域外文本數據集,制作醫療模板數據集;步驟2:預訓練深度語言模型;步驟3:對醫療模板數據集和處理后的域外文本數據集打上不同的標簽,形成醫療模板標簽數據集與域外文本標簽數據集;步驟4:將步驟2中得到的預訓練深度語言模型權重加載到深度語言模型中,得到預訓練深度語言模型,然后將標簽信息加入到輸入矩陣中,對預訓練深度語言模型進行微調,得到微調好的深度語言模型;步驟5:將醫療模板數據集的標簽輸入到微調好的深度語言模型中,然后對處理后的域外文本數據集中句子的每個單詞進行詞語預測,并保存每組預測詞;步驟6:根據模型預測保存下來的各組預測詞生成詞匯混淆網絡;對詞匯混淆網絡中的詞語按順序進行排列組合得到全部模板句子;步驟2具體步驟如下:首先構建由三個部分組成的深度語言模型,1輸入嵌入層,2多頭注意力層,3線性層;隨后使用醫療模板數據集和處理后的域外文本數據集對深度語言模型進行預訓練;1輸入嵌入層用于對醫療模板數據集和處理后的域外文本數據集進行分詞、詞表建立、初始編碼、獨熱編碼、詞嵌入壓縮、位置編碼、輸入矩陣建立:1分詞:基于最短路徑與動態規劃分詞算法對每個句子進行分詞,并保存分詞結果,形成分詞集;2詞表建立:將分詞集出現的詞匯保存形成詞表;詞表中一行一個詞語,詞語所在的行數即是該詞匯的編碼;3初始編碼:設置統一編碼長度,使用詞表對分詞后句子進行初始編碼,長度短于統一編碼長度的句子,通過填0補充;長度超過統一編碼長度的句子,超過的部分不進行編碼;4獨熱編碼:獨熱編碼矩陣中每一行代表一個詞匯的獨熱碼,該行中只有該詞的詞語編碼的列的值為1其他位置的值都為0,5詞嵌入壓縮:構造隨機矩陣ws,其中d為詞向量的維度,然后將wS與獨熱編碼矩陣進行矩陣相乘,進行詞嵌入壓縮,得到詞向量矩陣,進行詞嵌入壓縮的過程用公式表示為: 其中wc是詞向量矩陣,是獨熱編碼矩陣;6位置編碼:為詞向量矩陣構造位置矩陣pe,構造位置矩陣: 其中pos為詞語在句子中的位置,d是詞向量維度,i是0到d-1之間,包括0和d-1的整數值;2i是指詞向量中的偶數列,2i+1是指詞向量中的奇數列,pepos,2i+1表示pe矩陣中第pos行,奇數列的值,pepos,2i表示pe矩陣中第pos行,偶數列的值;設詞向量矩陣的維度是5×4,即句子中有五個詞,每個詞用四維向量表示;則位置矩陣的計算公式為: 當pos=1時得到第一個詞的位置向量:將pos=2帶入公式得到第二個詞的位置向量:以此類推得到全部詞的位置向量;組合成位置矩陣,位置矩陣的維度為5×4與詞向量矩陣維度相同;7輸入矩陣建立:將得到的位置矩陣和詞向量矩陣直接相加,得到輸入矩陣;2多頭注意力層通過構建多頭注意力機制,計算注意力分數矩陣,從而進行表示學習;多頭注意力層由多層多頭注意力機制組成,將上一層注意力機制計算出的注意力分數矩陣作為下一層注意力機制的輸入,其步驟包括:1構造三個隨機矩陣d為詞向量維度;并將輸入矩陣與這三個矩陣分別進行矩陣相乘,得到查詢矩陣Q、鍵矩陣K、值矩陣V;2計算多頭注意力得分矩陣;多頭注意力得分矩陣的具體計算公式為:MultiHeadQ,K,V=Concathead1,…,headhwo 其中d為詞向量的維度,headh表示第h個注意力頭,Concat表示將矩陣head1,…,headh進行拼接,其中h代表注意力頭的個數,hdv表示注意力頭的個數h與dv的乘積;通過上述步驟計算得出多頭注意力分數矩陣,然后將注意力分數矩陣輸入到下一層多頭注意力機制中繼續計算注意力得分矩陣;3線性層:將多頭注意力層輸出的注意力得分矩陣輸入線性層中進行維度變換,公式為:F=MultiHeadQ,K,V*wf其中wf為線性變換矩陣,然后對經過維度變換的矩陣F采用softmax函數進行歸一化,將每一行的元素縮放到0,1之間,得到輸出矩陣FN;4使用醫療模板數據集和處理后的域外文本數據集對深度語言模型進行預訓練,其具體步驟如下:1劃分數據集為若干個BATCH,每一個BATCH由x句話組成;然后對各個BATCH中的每句話進行MASK操作;2將經過MASK操作后的BATCH送入輸入嵌入層,得到輸入矩陣;3將輸入矩陣送入多頭自注意力層中,計算多頭注意力分數矩陣;4將多頭注意力分數矩陣輸入線性層中進行維度變換,得到輸出矩陣pc;5根據BATCH中被MASK的詞構造目標矩陣yc,yc的維度與pc相同,yc每一行向量對應BATCH中每個句子被替換成MASK的詞的獨熱編碼向量;6然后根據目標矩陣yc與輸出矩陣pc,計算交叉熵函數得出整個BATCH的Loss,一個BATCH的交叉熵計算公式為: 其中表示yc矩陣中第i行向量,表pc矩陣第i行向量,表示對向量中的每個元素進行對數運算;表示向量與向量做向量積;x等于yc矩陣的列數;7根據Loss,采用Adam算法更新模型參數直至收斂,得到預訓練深度語言模型權重。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人杭州電子科技大學,其通訊地址為:310018 浙江省杭州市下沙高教園區2號大街;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。