恭喜河北工業(yè)大學李家樂獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監(jiān)控用IP管家,真方便!
龍圖騰網(wǎng)恭喜河北工業(yè)大學申請的專利一種基于語言和圖像大模型的多源路面病害識別方法獲國家發(fā)明授權專利權,本發(fā)明授權專利權由國家知識產(chǎn)權局授予,授權公告號為:CN119107447B 。
龍圖騰網(wǎng)通過國家知識產(chǎn)權局官網(wǎng)在2025-05-02發(fā)布的發(fā)明授權授權公告中獲悉:該發(fā)明授權的專利申請?zhí)?專利號為:202411322837.8,技術領域涉及:G06V10/25;該發(fā)明授權一種基于語言和圖像大模型的多源路面病害識別方法是由李家樂;吳禹霆;王雪菲設計研發(fā)完成,并于2024-09-23向國家知識產(chǎn)權局提交的專利申請。
本一種基于語言和圖像大模型的多源路面病害識別方法在說明書摘要公布了:本發(fā)明為一種基于語言和圖像大模型的多源路面病害識別方法,所述識別方法包括以下內(nèi)容:收集道路路面病害檢測相關規(guī)范建立知識語料庫,使用大語言模型LLM讀入道路病害圖像;對于被LLM確定為裂縫橫穿整張圖像時,則以過圖片中心點沿垂直裂縫方向進行裁剪,裁剪為兩張圖片;之后,將所有圖像和相應的文本提示輸入,使用視覺語言大模型VLM對路面病害進行目標檢測,輸出預測框;使用標注有病害掩碼的圖像對SAM進行微調(diào)得到適應于道路病害分割任務的RoadSAM。該方法結合了大語言模型、視覺語言大模型和分割大模型三者,并對分割大模型SAM進行了相應的微調(diào),減少對大量標注數(shù)據(jù)的依賴,同時實現(xiàn)多源多模態(tài)路面病害圖像的統(tǒng)一分割。
本發(fā)明授權一種基于語言和圖像大模型的多源路面病害識別方法在權利要求書中公布了:1.一種基于語言和圖像大模型的多源路面病害識別方法,其特征在于,所述識別方法包括以下內(nèi)容:第一部分:收集道路路面病害檢測相關規(guī)范建立知識語料庫,使用大語言模型LLM讀入道路病害圖像,令其根據(jù)知識語料庫進行分類并輸出語義豐富包含上下文信息的文本描述;收集道路路面病害相關的規(guī)范文件,包括手冊、指南、法規(guī)、標準,整理文本,輸入到大語言模型LLM中,建立一個覆蓋各等級公路場景和路面病害術語的專業(yè)知識語料庫,能夠依據(jù)公路規(guī)范建立一致且標準的描述框架;使用RGB相機或線掃激光或紅外相機按照不同的采集方式進行圖像采集,并按照采集方式和道路等級分成不同的文件夾目錄,獲得多模態(tài)圖像;根據(jù)目錄中圖像類型分別設置文本指令,將采集到的圖像輸入到大語言模型LLM中,并使用指令對圖像中病害進行問詢使其完成對病害的描述,病害的描述內(nèi)容包括病害的類型、顏色、形狀、位置,對裂縫病害,則病害的描述內(nèi)容還需包括是否橫穿整張圖像;將病害描述形成的文本描述作為文本提示;第二部分:對于被LLM確定為裂縫橫穿整張圖像時,則以過圖片中心點沿垂直裂縫方向進行裁剪,裁剪為兩張圖片;之后,將所有圖像和相應的文本提示輸入,使用視覺語言大模型VLM對路面病害進行目標檢測,輸出預測框;若沒有被LLM判定為裂縫橫穿整張圖像,而整張圖像的預測框仍出現(xiàn)多框重疊情況,或單個框的長邊超過圖像的70%,則需要進行裁剪;對于多框重疊的情況,裁剪線過最大框的中心點沿短邊方向設置;對于單框長邊過長的情況,裁剪線過單框的中心點沿短邊方向設置;裁剪后,再次利用視覺語言大模型VLM對裁剪后的這兩張圖分別檢測,最后經(jīng)過坐標換算將預測框?qū)眉羟暗脑瓐D上的坐標計算出來,實現(xiàn)在一張圖上對同一條病害得到了兩個不同的預測框,至此完成對圖像進行預測框標記的過程;對于貫穿整個畫面的“超長裂縫”,GLIP模型存在多框重疊或者是只檢測出其中一段裂縫的傾向,針對這個問題,采取裁剪分割策略:對于這種裂縫圖片會過圖片中心點沿與裂縫垂直的方向?qū)⑵洳眉魹閮蓮垐D,使原本“過長”的裂縫變成兩段較短的裂縫,然后使用GLIP對這兩張圖分別檢測,GLIP此時會生成兩個預測框,最后經(jīng)過坐標換算將兩個框于原圖上的坐標計算出來,這樣就在一張圖上對同一條裂縫得到了兩個不同的預測框;第三部分:使用標注有病害掩碼的圖像對SAM進行微調(diào)得到適應于道路病害分割任務的RoadSAM;使用標注有病害掩碼的圖像對SAM進行訓練,訓練SAM過程中,掩碼解碼器進行全量微調(diào),使用Focal損失函數(shù)和交叉熵損失函數(shù)的加權和作為總損失函數(shù),訓練結束后即得到針對道路病害的分割模型RoadSAM,用于道路病害的分割;SAM使用掩碼自編碼器MAE預訓練的VIT作為主干網(wǎng)絡,并采用基于向量的隨機矩陣適配VeRA、適配器Adapter、前綴調(diào)優(yōu)PrefixTuning三種技術對SAM的圖像編碼器部分進行微調(diào);所述SAM包括圖像編碼器、提示編碼器和掩碼解碼器,掩碼解碼器的輸入為圖像編碼器輸出的圖像嵌入和提示編碼器輸出的提示嵌入;圖像編碼器的輸入為圖像;SAM的圖像編碼器包括區(qū)塊向量、頸部結構,并使用掩碼自編碼器MAE預訓練的VIT作為主干網(wǎng)絡,所述主干網(wǎng)絡由多個TransformerBlocks組成,每個TransformerBlocks記為ViT塊,ViT塊包括歸一化層、窗口注意力層和多層感知機;ViT塊的輸入經(jīng)第一個歸一化層進入窗口注意力層,之后窗口注意力層的輸出與第一個歸一化層的輸入相加后,再進入適配器Adapter和第二個歸一化層,第二個歸一化層的結果經(jīng)多層感知機的處理后與適配器的輸出相加后獲得ViT塊的輸出;在窗口注意力層中增加VeRA模塊,對于區(qū)塊向量獲得每的個圖像區(qū)塊patchxp∈RH×W×C,經(jīng)過第一個歸一化層處理后,再經(jīng)過大小為ω的窗口進行再分塊,分成N個不重疊的小塊x∈RN×ω×ω×C;其中H和W分別為圖像區(qū)塊的高度和寬度,C為圖像區(qū)塊的通道數(shù);然后,x會經(jīng)過多頭注意力,在注意力頭中,查詢向量Q、鍵值對K和V是通過x與可學習的線性層獲得的,在可學習的線性層中加入VeRA模塊;在可學習的線性層的權重矩陣上添加一個作為支路的VeRA權重矩陣ΔW;ΔW由兩個權重隨機初始化后凍結的低秩矩陣A和權重共享的低秩矩陣B、以及兩個可變的縮放向量b和d構成,其中A和B的大小取決于秩r,r遠小于原始權重矩陣W的維度;對于原始路徑y(tǒng)=Wx變?yōu)閥=W+ΔWx;其中ΔW=ΛbBΛdA;縮放向量b和d形式上表達為對角矩陣Λb和Λd;當圖像區(qū)塊嵌入經(jīng)過可學習的線性層后,就得到原始查詢向量Q、原始鍵值對K和V;在原始鍵值對K和V向量前分別添加可更新的前綴向量PK和前綴向量PV,將由前綴向量PK和前綴向量PV分別與原始鍵值對K和V組成新的K和V與原始的Q一起進行注意力的計算;所述適配器位于多頭注意力與多層感知機之間的位置,采用瓶頸結構,包括上采樣層、激活函數(shù)和下采樣層,中間的性激活函數(shù)選用非線性激活函數(shù)GELU;SAM的提示編碼器使用位置編碼技術進行編碼嵌入,對提示框的左上角和右下角坐標進行位置編碼;在SAM中,位置編碼層設置有位于注冊緩沖區(qū)的隨機生成的多個高斯隨機矩陣,且每個矩陣對應不同的特征頻率和維度,最后將各矩陣位置編碼結果進行連接和平均,同時將位置編碼層改為可更新參數(shù)。
如需購買、轉(zhuǎn)讓、實施、許可或投資類似專利技術,可聯(lián)系本專利的申請人或?qū)@麢嗳?a target="_blank" rel="noopener noreferrer nofollow" >河北工業(yè)大學,其通訊地址為:300401 天津市北辰區(qū)西平道5340號;或者聯(lián)系龍圖騰網(wǎng)官方客服,聯(lián)系龍圖騰網(wǎng)可撥打電話0551-65771310或微信搜索“龍圖騰網(wǎng)”。
1、本報告根據(jù)公開、合法渠道獲得相關數(shù)據(jù)和信息,力求客觀、公正,但并不保證數(shù)據(jù)的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發(fā)布本報告當日的職業(yè)理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據(jù)或者憑證。