恭喜山東威爾數(shù)據(jù)股份有限公司李大鵬獲國家專利權(quán)
買專利賣專利找龍圖騰,真高效! 查專利查商標(biāo)用IPTOP,全免費!專利年費監(jiān)控用IP管家,真方便!
龍圖騰網(wǎng)恭喜山東威爾數(shù)據(jù)股份有限公司申請的專利開發(fā)文檔智能解析方法獲國家發(fā)明授權(quán)專利權(quán),本發(fā)明授權(quán)專利權(quán)由國家知識產(chǎn)權(quán)局授予,授權(quán)公告號為:CN119272753B 。
龍圖騰網(wǎng)通過國家知識產(chǎn)權(quán)局官網(wǎng)在2025-03-25發(fā)布的發(fā)明授權(quán)授權(quán)公告中獲悉:該發(fā)明授權(quán)的專利申請?zhí)?專利號為:202411783140.0,技術(shù)領(lǐng)域涉及:G06F40/205;該發(fā)明授權(quán)開發(fā)文檔智能解析方法是由李大鵬;尹孟磊;王冠男設(shè)計研發(fā)完成,并于2024-12-06向國家知識產(chǎn)權(quán)局提交的專利申請。
本開發(fā)文檔智能解析方法在說明書摘要公布了:本發(fā)明公開了一種開發(fā)文檔智能解析方法,該解析方法用于從開發(fā)文檔中解析出結(jié)構(gòu)化數(shù)據(jù)集合。首先定義第一類別集合和第二類別集合,構(gòu)建第一語義識別網(wǎng)絡(luò)和第二語義識別網(wǎng)絡(luò),并構(gòu)建若干關(guān)鍵詞提取模塊;然后將開發(fā)文檔劃分為多個部分,然后依次遍歷每個部分,對于每個部分,根據(jù)其是文字段落還是表格進(jìn)行不同的處理,處理過程中使用第一語義識別網(wǎng)絡(luò)、第二語義識別網(wǎng)絡(luò)和各關(guān)鍵詞提取模塊,得到結(jié)構(gòu)化數(shù)據(jù)集合。本發(fā)明能夠自動讀取開發(fā)文檔并準(zhǔn)確提取出需要的結(jié)構(gòu)化數(shù)據(jù),從而大幅節(jié)省開發(fā)人員閱讀和整理文檔所需要的時間,提高開發(fā)效率,同時還具有解析準(zhǔn)確性高、完整性好等優(yōu)點。
本發(fā)明授權(quán)開發(fā)文檔智能解析方法在權(quán)利要求書中公布了:1.一種開發(fā)文檔智能解析方法,其特征在于:該解析方法用于從開發(fā)文檔中解析出結(jié)構(gòu)化數(shù)據(jù)集合;所述結(jié)構(gòu)化數(shù)據(jù)集合包含若干數(shù)據(jù)項,每個數(shù)據(jù)項中包含用于描述該數(shù)據(jù)項的第一屬性,還包括實體屬性和狀態(tài)量;所述實體屬性為包含若干參數(shù)項的集合,每個參數(shù)項中包含若干用于描述該參數(shù)項的第二屬性;所述狀態(tài)量用于指向當(dāng)前編輯的實體屬性;定義第一類別集合和第二類別集合;所述第一類別集合中的第一類別包括用于描述數(shù)據(jù)項中第一屬性的類別,還包括與實體屬性對應(yīng)的“包裝實體”和“表格”類別以及代表無需關(guān)注內(nèi)容的“噪聲”類別;所述第二類別集合中的第二類別是用于描述參數(shù)項下第二屬性的類別;構(gòu)建第一語義識別網(wǎng)絡(luò)和第二語義識別網(wǎng)絡(luò),所述第一語義識別網(wǎng)絡(luò)用于判斷所輸入的內(nèi)容所屬的第一類別,所述第二語義識別網(wǎng)絡(luò)用于判斷所輸入的內(nèi)容所屬的第二類別;構(gòu)建若干關(guān)鍵詞提取模塊,各關(guān)鍵詞提取模塊分別對應(yīng)不同的第一類別,關(guān)鍵詞提取模塊用于從輸入的內(nèi)容中提取出關(guān)鍵詞;解析步驟為:步驟1、初始化結(jié)構(gòu)化數(shù)據(jù)集合、段落stored和第一類別全局id,所述段落stored用于存儲已讀取且待處理的段落,所述第一類別全局id用于記錄當(dāng)前段落stored中內(nèi)容所屬的第一類別;步驟2、將開發(fā)文檔劃分為多個部分,然后依次遍歷每個部分,對于每個部分,分別按步驟3的方式進(jìn)行處理;步驟3、判斷當(dāng)前讀取的部分是文字段落還是表格,如果是文字段落則執(zhí)行步驟4、否則執(zhí)行步驟5;步驟4、將當(dāng)前讀取的文字段落作為段落current,使用第一語義識別網(wǎng)絡(luò)得到段落current對應(yīng)的第一類別,確認(rèn)段落current不屬于“噪聲”之后,判斷段落current的第一類別與第一類別全局id是否一致,一致則將段落current加入到段落stored中并結(jié)束對當(dāng)前讀取的部分的處理,不一致則對段落stored中的內(nèi)容進(jìn)行結(jié)算處理,然后將段落stored清空、將段落current加入到段落stored中,最后將段落current的第一類別作為第一類別全局id;步驟5、判斷段落stored是否包含內(nèi)容,如果包含則依次執(zhí)行步驟5-1和步驟5-2,否則直接執(zhí)行步驟5-2;步驟5-1、對段落stored中的內(nèi)容進(jìn)行結(jié)算處理,然后將段落stored清空;步驟5-2、遍歷處理當(dāng)前讀取的表格的每一行;對于當(dāng)前行,先將該行內(nèi)容合并為字符串,然后使用第一語義識別網(wǎng)絡(luò)對該字符串進(jìn)行識別,如果識別出的第一類別是“包裝實體”或“表格”,則將該行按列分為多個單元格,并創(chuàng)建一個參數(shù)項;對于每個單元格,使用第二語義識別網(wǎng)絡(luò)對單元格的內(nèi)容進(jìn)行識別得到所屬的第二類別,然后將單元格的內(nèi)容賦值到創(chuàng)建的參數(shù)項中與識別出的第二類別所對應(yīng)的第二屬性;每一行的單元格遍歷完成后,將該行對應(yīng)的參數(shù)項加入到當(dāng)前指向的數(shù)據(jù)項中其狀態(tài)量所指向的實體屬性中。
如需購買、轉(zhuǎn)讓、實施、許可或投資類似專利技術(shù),可聯(lián)系本專利的申請人或?qū)@麢?quán)人山東威爾數(shù)據(jù)股份有限公司,其通訊地址為:264003 山東省煙臺市萊山區(qū)瑞達(dá)路8號;或者聯(lián)系龍圖騰網(wǎng)官方客服,聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。
1、本報告根據(jù)公開、合法渠道獲得相關(guān)數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準(zhǔn)確性。
2、報告中的分析和結(jié)論僅反映本公司于發(fā)布本報告當(dāng)日的職業(yè)理解,僅供參考使用,不能作為本公司承擔(dān)任何法律責(zé)任的依據(jù)或者憑證。
- 恭喜廣東美的制冷設(shè)備有限公司黎澤平獲國家專利權(quán)
- 恭喜華泰永創(chuàng)(北京)科技股份有限公司印文寶獲國家專利權(quán)
- 恭喜三菱電機株式會社河面英夫獲國家專利權(quán)
- 恭喜中芯國際集成電路制造(上海)有限公司紀(jì)世良獲國家專利權(quán)
- 恭喜廈門雅迅智聯(lián)科技股份有限公司蘭偉華獲國家專利權(quán)
- 恭喜三星電子株式會社金成旿獲國家專利權(quán)
- 恭喜高露潔-棕欖公司程池原獲國家專利權(quán)
- 恭喜北京君立康科技發(fā)展有限責(zé)任公司厲剛獲國家專利權(quán)
- 恭喜嘉興海拉燈具有限公司徐骕獲國家專利權(quán)
- 恭喜王晶獲國家專利權(quán)


熱門推薦
- 恭喜深圳市瀚暉威視科技有限公司吳國富獲國家專利權(quán)
- 恭喜中國人民解放軍總醫(yī)院羅渝昆獲國家專利權(quán)
- 恭喜中國工程物理研究院流體物理研究所李建北獲國家專利權(quán)
- 恭喜華為技術(shù)有限公司王仲宇獲國家專利權(quán)
- 恭喜陜西航天德林科技集團有限公司李牧坤獲國家專利權(quán)
- 恭喜華帝股份有限公司鐘文杰獲國家專利權(quán)
- 恭喜上海知正離心機有限公司趙東飛獲國家專利權(quán)
- 恭喜光為科技(廣州)有限公司黃愚獲國家專利權(quán)
- 恭喜浙江摩爾舒衛(wèi)生設(shè)備股份有限公司周春輝獲國家專利權(quán)
- 恭喜河南皓澤電子股份有限公司昆山分公司劉述倫獲國家專利權(quán)