企業網站建設歸檔采集范圍
日期 : 2020-11-28 22:00:33
歸檔采集范圍。自然資源部門戶網站網頁歸檔采集范圍限定于mnr.gov.cn域名下的網頁,其內容涵蓋政務公開、新聞宣傳、辦事服務、互動交流4個方面。政務公開主要包括部機關各司局、國家自然資源督察機構、部各直屬單位、地方各級自然資源主管部門提供的各類政策文件、標準法規,以及土地市場和礦業權相關行業市場數據等內容;新聞宣傳包括重要會議、重要活動、重要講話、政策解讀等內容;辦事服務包括土地、礦產、測繪、地質和科技等方面辦事服務內容,以及公示查驗、備案查詢等內容;互動交流以留言評論、在線訪談、征集調查等內容為主要體現。
本研究經過分析研判,政務公開、新聞宣傳和互動交流等相關內容基本只依托門戶網站發布系統,可以完成歸檔采集。對于辦事服務等內容,門戶網站一般只提供相關系統的入口,有關信息存儲在其他系統、無法被完整獲取,此類信息暫時不納入歸檔采集范圍。
在技術上,本研究使用網絡爬蟲工具抓取網頁文本、圖片、動畫、音視頻、腳本及網頁相關元數據等內容。爬蟲工具根據預制的系統模板和網頁URL信息,通過網站拓撲結構分析、目標網頁內容去噪和解析、網頁版本控制等技術,對采集到的數據進行采集和整理,實現對海量網頁信息的高效、智能處理。
本研究經過分析研判,政務公開、新聞宣傳和互動交流等相關內容基本只依托門戶網站發布系統,可以完成歸檔采集。對于辦事服務等內容,門戶網站一般只提供相關系統的入口,有關信息存儲在其他系統、無法被完整獲取,此類信息暫時不納入歸檔采集范圍。
在技術上,本研究使用網絡爬蟲工具抓取網頁文本、圖片、動畫、音視頻、腳本及網頁相關元數據等內容。爬蟲工具根據預制的系統模板和網頁URL信息,通過網站拓撲結構分析、目標網頁內容去噪和解析、網頁版本控制等技術,對采集到的數據進行采集和整理,實現對海量網頁信息的高效、智能處理。
上一篇:企業網站建設視覺傳達設計
下一篇:企業網站建設支持信息查詢,安全可靠