廈門理工學院盧萍獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉廈門理工學院申請的專利基于多LoRA級聯策略的HTML信息提取方法、裝置、設備和介質獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN120296275B 。
龍圖騰網通過國家知識產權局官網在2025-08-22發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202510757602.X,技術領域涉及:G06F16/958;該發明授權基于多LoRA級聯策略的HTML信息提取方法、裝置、設備和介質是由盧萍;羅德旺;戴彬;林開標設計研發完成,并于2025-06-09向國家知識產權局提交的專利申請。
本基于多LoRA級聯策略的HTML信息提取方法、裝置、設備和介質在說明書摘要公布了:基于多LoRA級聯策略的HTML信息提取方法、裝置、設備和介質,涉及HTML信息抽取技術領域。信息提取方法包含:獲取文檔并輸入大語言模型。大語言模型判斷是否包含表格。若包含表格,則調用表格處理LoRA適配器提取表格內容并轉換為偽自然語言描述,以及調用文本處理邏輯模塊提取表格的相鄰文本上下文,然后進行語義整合,獲取第一文本信息。若不包含表格,則調用表格處理LoRA適配器的文本處理模塊提取文本內容,獲取第一文本信息。調用關鍵信息提取LoRA適配器,從第一文本信息中提取結構化鍵值對,以生成JSON數據。調用嵌套結構化生成模塊將JSON數據轉化為多層嵌套JSON格式的目標序列。
本發明授權基于多LoRA級聯策略的HTML信息提取方法、裝置、設備和介質在權利要求書中公布了:1.一種基于多LoRA級聯策略的HTML信息提取方法,其特征在于,適于通過配備有文本處理邏輯模塊、表格處理LoRA適配器、關鍵信息提取LoRA適配器和嵌套結構化生成模塊的大語言模型來執行; 所述信息提取方法包含: 獲取HTML文檔并輸入大語言模型; 所述大語言模型判斷HTML文檔是否包含表格; 若HTML文檔包含表格,則調用所述表格處理LoRA適配器對表格內容進行結構化提取并轉換為偽自然語言描述,以及調用文本處理邏輯模塊提取表格的相鄰文本上下文,然后進行語義整合,獲取第一文本信息; 若HTML文檔不包含表格,則調用表格處理LoRA適配器的文本處理模塊提取文本內容并保留原始段落結構,獲取第一文本信息; 調用關鍵信息提取LoRA適配器,基于預定義的字段列表從所述第一文本信息中提取結構化鍵值對,并根據所述結構化鍵值對生成扁平化的JSON數據; 調用所述嵌套結構化生成模塊,將所述JSON數據轉化為符合業務邏輯的多層嵌套JSON格式的目標序列,以存儲至文件系統支持后續業務系統調用; 表格處理LoRA適配器的微調過程為: 加載預訓練大語言模型(LLM)并凍結其基礎權重,僅啟用表格處理LoRA適配器的低秩矩陣參數和進行訓練;其中,為分解后的基矩陣、為分解后的系數矩陣、為表格處理LoRA適配器的權重矩陣; 輸入第一訓練數據和第一訓練指令; 以將多維度交叉的表格內容轉換為符合邏輯的文本信息為優化目標,采用反向傳播更新表格處理LoRA適配器參數; 反向傳播更新表格處理LoRA適配器參數的步驟為: 根據所述第一訓練數據、第一訓練指令,以及模型輸出的內容,生成第一序列概率分布;;式中,表示概率、表示在位置已經生成的目標內容、表示輸入文本、表示指令、和分別為不同的兩個詞組的序號、為輸出目標內容中的第個元素; 根據所述第一序列概率分布計算第一損失函數;;式中,為損失函數、輸出目標內容的元素數量、為真實標注序列、表示到位置的內容的真實標注; 根據所述第一損失函數更新和;;式中,為學習率、表示偏微分; 根據更新后的和,更新啟用表格處理LoRA適配器的大語言模型的權重;;式中,為啟用表格處理LoRA適配器的大語言模型的權重、為大語言模型的基礎權重、為第一訓練數據。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人廈門理工學院,其通訊地址為:361024 福建省廈門市集美區理工路600號;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。