恭喜南京航空航天大學汪俊獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網恭喜南京航空航天大學申請的專利一種基于漸進式知識注入與檢索增強生成的航空航天知識大模型構建方法獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN119808931B 。
龍圖騰網通過國家知識產權局官網在2025-05-23發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202510309163.6,技術領域涉及:G06N5/022;該發明授權一種基于漸進式知識注入與檢索增強生成的航空航天知識大模型構建方法是由汪俊;曹立群;宋雅各;易程;魏明強;鄭曉杰設計研發完成,并于2025-03-17向國家知識產權局提交的專利申請。
本一種基于漸進式知識注入與檢索增強生成的航空航天知識大模型構建方法在說明書摘要公布了:本發明公開一種基于漸進式知識注入與檢索增強生成的航空航天知識大模型構建方法,包括:收集多源知識數據并進行預處理,構建航空航天領域知識庫;基于DeepSeek?R1?8B模型,采用三階段漸進式混合課程學習框架進行持續預訓練;通過指令數據與知識引導機制,進行監督微調,完成大模型的基本構建;構建檢索增強生成模塊,形成“檢索?過濾?生成”的流程,通過深度融合實時檢索與生成推理,提升模型的知識覆蓋度與事實一致性;通過多維度的量化指標與動態測試機制,評估模型的性能表現,形成從數據構建到反饋優化的完整評估生態。本發明所提出的方法,通過多階段協同優化實現了航空航天領域知識的深度整合與高效應用。
本發明授權一種基于漸進式知識注入與檢索增強生成的航空航天知識大模型構建方法在權利要求書中公布了:1.一種基于漸進式知識注入與檢索增強生成的航空航天知識大模型構建方法,其特征在于,具體包括以下步驟:S1、面向多種航空航天領域知識數據源,設計自動化采集工具鏈,搭建數據收集系統,獲取原始數據;并對獲取到的原始數據進行細粒度的清洗、去重和整理,構建高質量航空航天領域知識數據庫;S2、基于DeepSeek-R1-8B模型和步驟S1構建的知識數據庫,進行持續的預訓練,設計三階段漸進式混合課程學習框架,動態規劃預訓練數據庫中的數據比例,并逐步提升領域知識的濃度與復雜度;步驟S2具體包括:S21、設計三階段漸進式混合課程學習框架,對步驟S1構建出的高質量航空航天領域知識數據庫和互聯網開源的通用數據庫進行動態采樣與混合,分別構建適用于三種不同學習階段的預訓練數據集;三種不同學習階段分別為通用知識保留階段、領域知識注入階段、深度專業化階段,分別對應預訓練初期、中期和后期;S22、在預訓練初期,預訓練數據集包含90%通用語料與10%航空航天領域基礎數據;基于原始DeepSeek-R1-8B模型進行掩碼語言模型任務,進行多輪次訓練,重點學習領域核心術語的語義嵌入與基礎概念關聯;同時設計動態掩蓋機制,對輸入文本中的領域術語施加掩蓋,迫使模型從上下文中推斷專業詞匯的深層語義;S23、在預訓練中期,預訓練數據集中航空航天領域數據占比提升至50%,重點引入中等難度文本內容;基于經過初期預訓練的DeepSeek-R1-8B模型繼續進行掩碼語言模型任務,進行多輪次訓練,提升模型對復雜關聯的建模能力;S24、在預訓練后期,預訓練數據集中航空航天領域數據占比提升至80%,聚焦高密度專業內容,特別包含復雜數學公式推導;基于經過中期預訓練的DeepSeek-R1-8B模型進行掩碼語言模型和下一結構預測任務,分別訓練多個輪次,強化模型的邏輯推理、上下文理解以及信息整合能力;S25、在模型結果生成過程中引入數值保護層,通過正則表達式自動標注“num”與“unit”標簽,約束數值格式的物理合理性,避免生成違背常識的結果;S3、基于預訓練后的模型,通過精細化設計領域特定的指令數據與知識引導機制,進行監督微調,校準模型的生成邏輯與專業知識表達,將預訓練階段注入的隱式嵌入領域知識轉化為顯式推理能力,完成航空航天知識大模型的基本構建;S4、構建檢索增強生成模塊,形成“檢索-過濾-生成”的流程,通過深度融合實時檢索與生成推理,提升大模型在航空航天領域的知識覆蓋度與事實一致性;步驟S4具體包括:S41、構建查詢增強模塊,使用大模型對用戶輸入的查詢進行重寫;S42、構建查詢檢查模塊,對重寫后的新查詢進行三方面檢查,包括:確定用戶輸入的查詢是否與航空航天領域知識相關;評估用戶輸入的查詢是否適合進行知識檢索增強以生成響應;驗證用戶的查詢是否符合規范要求,攔截限制性內容,確保查詢的合規性;當且僅當三個條件同時滿足時,航空航天知識大模型才繼續進行知識檢索增強;S43、構建查詢擴展與分解模塊,處理多樣化的用戶查詢,根據輸入的用戶查詢的復雜度,執行混合粒度自適應檢索,通過原始查詢生成子查詢,以及大模型檢索到的與子查詢相關的文檔;S44、構建文檔過濾篩選模塊,對檢索到的文檔與其對應的子查詢之間的相關性進行評估;并按來源權威性、時效性、相關性得分綜合排序,保留綜合得分最高的三個文檔;若檢索結果出現沖突,則啟動投票機制并標注存疑點;S45、經過多層過濾的文檔隨后會與其對應的子查詢進行組合,并與重寫后的用戶查詢一起作為模型的輸入,以指導大模型的響應生成;另外在用戶查詢沒有獲得對應的相關文檔時,則提醒大模型提供適當的解釋;S5、構建面向航空航天領域的專業化評估基準,通過多維度的量化指標與動態測試機制,全面評估構建好的大模型在關鍵任務中的性能表現,形成從數據構建到反饋優化的完整評估生態。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人南京航空航天大學,其通訊地址為:210016 江蘇省南京市秦淮區御道街29號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。