廈門安勝網絡科技有限公司林山獲國家專利權
買專利賣專利找龍圖騰,真高效! 查專利查商標用IPTOP,全免費!專利年費監控用IP管家,真方便!
龍圖騰網獲悉廈門安勝網絡科技有限公司申請的專利一種基于頁面瀏覽行為建模的數據采集方法和系統獲國家發明授權專利權,本發明授權專利權由國家知識產權局授予,授權公告號為:CN115878934B 。
龍圖騰網通過國家知識產權局官網在2025-08-08發布的發明授權授權公告中獲悉:該發明授權的專利申請號/專利號為:202211616787.5,技術領域涉及:G06F16/958;該發明授權一種基于頁面瀏覽行為建模的數據采集方法和系統是由林山;彭小虎;葉青;李劍煜;劉星;莊秋榆設計研發完成,并于2022-12-15向國家知識產權局提交的專利申請。
本一種基于頁面瀏覽行為建模的數據采集方法和系統在說明書摘要公布了:本申請提出了一種基于頁面瀏覽行為建模的數據采集方法,包括以下步驟:a設計并構建js插件,將js插件嵌入到瀏覽器中;b基于頁面瀏覽行為獲取通用的行為模板文件;c動態替換任務參數,獲取新的行為模板文件;d將新的行為模板文件解析為有序的行為列表;e控制瀏覽器按照順序執行行為列表中的行為,進行數據提取;f保存并導出在網頁上提取的數據。本申請的文本數據采集方法的數據采集基于對真實交互行為和標記行為的模擬,能夠免疫大部分反爬蟲機制,通過元素定位實現了數據的精準提取,省去了二次清洗的過程,能夠極大降低數據采集的難度,目標網站更新樣式時,只需要對新樣式重新建模,降低維護成本,具有廣泛的適用性。
本發明授權一種基于頁面瀏覽行為建模的數據采集方法和系統在權利要求書中公布了:1.一種基于頁面瀏覽行為建模的數據采集方法,其特征在于,包括以下步驟: S1:設計并構建js插件,將js插件嵌入到瀏覽器中;所述js插件包括網頁分析器:用于分析網頁html的數據結構、分析網頁元素的提取路徑、根據提取路徑定位到網頁元素和對網頁元素進行成分分析;行為記錄器:用于監聽、記錄用戶在網站上的頁面瀏覽行為,并以列表的方式保存;模板編輯器:用于對行為記錄器記錄的內容進行展示、編輯和修改,最終得到行為模板文件;其中,所述頁面瀏覽行為包括正常交互行為和標記行為; S2:打開目標網站起始地址,輸入任務參數,進行網頁瀏覽,基于頁面瀏覽行為獲得通用的行為模板文件,將任務參數和通用的行為模板文件保存為模板任務;具體步驟為: S21:行為記錄器攔截操作人員與網頁元素的正常交互行為,網頁分析器提取被操作網頁元素的路徑,將被操作網頁元素的路徑和對應的操作類型計為一個操作單元,行為記錄器記錄該操作單元; S22:行為記錄器攔截操作人員的對網頁元素的標記行為,網頁分析器確定被標記元素的路徑并確定被標記元素的數據類型,將得到的被標記元素的路徑和被標記元素的數據類型計為一個提取單元,行為記錄器記錄該提取單元; S23:將操作單元和提取單元合并為行為單元,頁面瀏覽行為結束后,行為記錄器得到一個有序的行為單元列表,這個有序的行為單元列表為行為模板; S24:將行為模板在模板編輯器中按流程圖的形式進行展示,對行為模板進行編輯、修改、刪除行為,導出行為模板得到一個通用的行為模板文件; S3:導入模板任務,動態替換模板任務中的任務參數,得到新的行為模板文件; S4:啟動目標網站,js插件將新的行為模板文件數據解析為有序的行為列表; S5:js插件控制瀏覽器按順序執行行為列表中的行為,實施相應的行為并進行數據提取; S6:重復步驟S5,直到行為列表中的行為全部執行完畢,將網頁上提取的數據以數據列表的方式保存并導出。
如需購買、轉讓、實施、許可或投資類似專利技術,可聯系本專利的申請人或專利權人廈門安勝網絡科技有限公司,其通訊地址為:361008 福建省廈門市集美區軟件園三期誠毅大街358號1502-5單元;或者聯系龍圖騰網官方客服,聯系龍圖騰網可撥打電話0551-65771310或微信搜索“龍圖騰網”。
1、本報告根據公開、合法渠道獲得相關數據和信息,力求客觀、公正,但并不保證數據的最終完整性和準確性。
2、報告中的分析和結論僅反映本公司于發布本報告當日的職業理解,僅供參考使用,不能作為本公司承擔任何法律責任的依據或者憑證。