深度優(yōu)先搜索策略基本過(guò)程為,爬蟲(chóng)程序從初始種子網(wǎng)頁(yè)出發(fā),獲取當(dāng)前網(wǎng)頁(yè)的超鏈接集合后,任選一個(gè)超鏈接進(jìn)行爬取,這時(shí)爬蟲(chóng)在此方向建立并重復(fù)上述的過(guò)程,當(dāng)爬蟲(chóng)程序在一條方向上無(wú)法再前進(jìn)爬取時(shí)本條方向結(jié)束,并返回上一層頁(yè)面另一超鏈接路徑繼續(xù)采集過(guò)程。
當(dāng)爬蟲(chóng)再也找不到另一個(gè)超鏈接爬行時(shí)則爬蟲(chóng)結(jié)束,搜索爬取完成。深度優(yōu)先搜索策略在選定某一超鏈接后則一直爬取到底,整個(gè)爬取是一個(gè)遞歸過(guò)程。
本文地址:http://123beaconmarketing.com//article/21476.html