完整性采集和選擇性采集是目前比較常用的網絡資源采集方式,它們各有優缺點,為了彌補其各自的不足,可以實現兩種采集方式的優勢互補,采用融合二者優點的混合型采集方式,在對選定的政府網站中所有網頁進行完整性采集的同時,通過人工干預的方式對網頁內容進行甄別,對其中有證據價值、歷史價值、研究價值的重要網頁,有選擇性地進行深層次的頻繁采集,這樣既考慮到了政府網頁采集面的廣度,同時又照顧到了重要網頁采集的深度。
而網頁的采集與捕獲最終還需要依靠相應的網絡爬蟲工具來實現,目前面向網頁存檔的爬蟲工具比較多,其中Heritrix、HTTrack最為常用,可利用這些工具來有針對性地完成對目標政府網站網頁的自動批量在線采集。
本文地址:http://123beaconmarketing.com//article/30389.html