企業(yè)網(wǎng)站建設(shè)搜索引擎的特點與發(fā)展態(tài)勢
日期 : 2019-03-10 13:35:19
所謂搜索引擎, 就是根據(jù)用戶需求與一定算法, 運用特定策略從互聯(lián)網(wǎng)檢索出制定信息反饋給用戶的一門檢索技術(shù)。搜索引擎依托于多種技術(shù), 如網(wǎng)絡(luò)爬蟲技術(shù)、檢索排序技術(shù)、網(wǎng)頁處理技術(shù)、大數(shù)據(jù)處理技術(shù)、自然語言處理技術(shù)等, 為信息檢索用戶提供快速、高相關(guān)性的信息服務(wù)。搜索引擎技術(shù)的核心模塊一般包括爬蟲、索引、檢索和排序等, 同時可添加其他一系列輔助模塊, 以為用戶創(chuàng)造更好的網(wǎng)絡(luò)使用環(huán)境。
從發(fā)展歷史來看, 搜索引擎技術(shù)自1994年以來, 已經(jīng)經(jīng)歷了三代的更新與發(fā)展, 它們分別是:以Yahoo為代表的第一代搜索引擎技術(shù), 它是基于萬維網(wǎng)運行并首次支持自然語言檢索和高級搜索語法檢索, 以人工整理的目錄方式呈現(xiàn)檢索結(jié)果是其明顯特征;以Google為代表的第二代搜索引擎技術(shù), 它是基于數(shù)據(jù)挖掘和網(wǎng)站評級技術(shù)并利用關(guān)鍵字進行機器檢索, 其檢索速度與準確性迅速提高;以2005年微軟公司“技術(shù)驅(qū)動型”搜索引擎構(gòu)想為代表的第三代搜索引擎技術(shù),是第二代搜索引擎技術(shù)的升級與改進, 具有更為強大的服務(wù)空間與技術(shù)性能。
目前, 世界上主流搜索引擎公司是谷歌、雅虎, 尤其如谷歌, 它提出“讓世界變得更美好”的口號令世界矚目。在我國, 百度一家獨大, 它提出的口號是“連接人與服務(wù)”, 意欲為國人提供最智能化、個性化的檢索服務(wù)。
搜索引擎的工作步驟與主要特點
搜索引擎利用其強大的爬蟲技術(shù)和索引技術(shù), 為計算機用戶提供優(yōu)質(zhì)的個性化信息服務(wù)。其工作步驟主要包括三個環(huán)節(jié):爬行和抓取 (數(shù)據(jù)采集) 、數(shù)據(jù)庫處理 (數(shù)據(jù)預(yù)處理和數(shù)據(jù)處理) 、排名 (結(jié)果展示) 。
其主要特點是:
1) 信息抓取迅速。在大數(shù)據(jù)時代, 網(wǎng)絡(luò)產(chǎn)生的信息浩如煙海, 令人無所適從, 難以得到自己需要的信息資源。在搜索引擎技術(shù)的幫助下, 利用關(guān)鍵詞、高級語法等檢索方式就可以快速捕捉到相關(guān)度極高的匹配信息。
2) 深入開展信息挖掘。搜索引擎在捕獲用戶需求的信息的同時, 還能對檢索的信息加以一定維度的分析, 以引導其對信息的使用與認識。例如, 用戶可以根據(jù)檢索到的信息條目判斷檢索對象的熱度, 還可以根據(jù)檢索到的信息分布給出高相關(guān)性的同類對象, 還可以利用檢索到的信息智能化給出用戶解決方案, 等等。
3) 檢索內(nèi)容的多樣化和廣泛性。隨著搜索引擎技術(shù)的日益成熟, 當代搜索引擎技術(shù)幾乎可以支持各種數(shù)據(jù)類型的檢索, 例如自然語言、智能語言、機器語言等各種語言。目前, 不僅視頻、音頻、圖像可以被檢索, 而且人類面部特征、指紋、特定動作等也可以被檢索到。可以想象, 在未來幾乎一切數(shù)據(jù)類型都可能成為搜索引擎的檢索對象。
四種基本搜索方式的比較
搜索方式是搜索引擎的一個關(guān)鍵環(huán)節(jié), 大致可分為四種:全文搜索引擎、元搜索引擎、垂直搜索引擎和目錄搜索引擎,它們各有特點并適用于不同的搜索環(huán)境。所以, 靈活選用搜索方式是提高搜索引擎性能的重要途徑。全文搜索引擎是利用爬蟲程序抓取互聯(lián)網(wǎng)上所有相關(guān)文章予以索引的搜索方式;元搜索引擎是基于多個搜索引擎結(jié)果并對之整合處理的二次搜索方式;垂直搜索引擎是對某一特定行業(yè)內(nèi)數(shù)據(jù)進行快速檢索的一種專業(yè)搜索方式;目錄搜索引擎是依賴人工收集處理數(shù)據(jù)并置于分類目錄鏈接下的搜索方式。
1) 一般網(wǎng)絡(luò)用戶適用于全文搜索引擎。這種搜索方式方便、簡捷, 并容易獲得所有相關(guān)信息。但搜索到的信息過于龐雜, 因此用戶需要逐一瀏覽并甄別出所需信息。尤其在用戶沒有明確檢索意圖情況下, 這種搜索方式非常有效。
2) 元搜索引擎適用于廣泛、準確地收集信息。不同的全文搜索引擎由于其性能和信息反饋能力差異, 導致其各有利弊。元搜索引擎的出現(xiàn)恰恰解決了這個問題, 有利于各基本搜索引擎間的優(yōu)勢互補。而且本搜索方式有利于對基本搜索方式進行全局控制, 引導全文搜索引擎的持續(xù)改善。
3) 垂直搜索引擎適用于有明確搜索意圖情況下進行檢索。例如, 用戶購買機票、火車票、汽車票時, 或想要瀏覽網(wǎng)絡(luò)視頻資源時, 都可以直接選用行業(yè)內(nèi)專用搜索引擎, 以準確、迅速獲得相關(guān)信息。
4) 目錄搜索引擎是網(wǎng)站內(nèi)部常用的檢索方式。本搜索方式旨在對網(wǎng)站內(nèi)信息整合處理并分目錄呈現(xiàn)給用戶, 但其缺點在于用戶需預(yù)先了解本網(wǎng)站的內(nèi)容, 并熟悉其主要模塊構(gòu)成。總而觀之, 目錄搜索方式的適應(yīng)范圍非常有限, 且需要較高的人工成本來支持維護。
總之, 用戶只有對上述四種搜索方式特點較為了解的基礎(chǔ)上, 才能在不同情境下靈活選擇出最適合自己的搜索方式。
當代搜索引擎技術(shù)發(fā)展趨勢分析
隨著智能化和信息化時代的到來, 網(wǎng)絡(luò)普及化程度空前提高。尤其我國政府提出了“互聯(lián)網(wǎng)+”的現(xiàn)代社會發(fā)展戰(zhàn)略, 李克強總理的“提速降費”政策的提出以及手機APP網(wǎng)絡(luò)終端的迅猛增長, 搜索引擎已成為廣大網(wǎng)民不可或缺的網(wǎng)絡(luò)生存工具。在這種形勢下, 搜索引擎技術(shù)出現(xiàn)了諸多發(fā)展勢頭并獲得史無前例的發(fā)展, 引起了國內(nèi)外數(shù)以萬計的信息技術(shù)行業(yè)工作者的高度關(guān)注。總而觀之, 當代搜索引擎技術(shù)的發(fā)展趨勢主要有以下四個:
1) 智能化發(fā)展。隨著人工智能技術(shù)的大幅度升溫, 試著將其運用于搜索引擎技術(shù), 實現(xiàn)網(wǎng)絡(luò)搜索的智能化正成為當代搜索引擎技術(shù)發(fā)展的新方向。目前, 已經(jīng)出現(xiàn)了一系列智能化的搜索技術(shù), 如以自然語言直接進行數(shù)據(jù)搜索, 基于云服務(wù)開展的云搜索技術(shù), 智能化判斷用戶搜索意圖并據(jù)此向用戶推送相關(guān)信息等等新技術(shù)已經(jīng)進入我們的日常網(wǎng)絡(luò)生活。可以預(yù)見, “人工智能+搜索引擎”必將引領(lǐng)AI時代的搜索引擎技術(shù)走向。
2) 個性化發(fā)展。以前, 搜索引擎只是為用戶提供機械化、單一的搜索方式, 向用戶反饋大眾化的一般性信息資源。而如今, 搜索引擎技術(shù)日益成熟, 它不僅可以跟蹤用戶搜索痕跡和檢索歷史, 把握每個用戶的信息偏好和搜索習慣, 還可以根據(jù)每個用戶的特殊需求與偏好, 為其提供個性化的搜索服務(wù), 以提高搜索的準確度, 使其獲得更好的用戶體驗。同時, 各搜索引擎公司還建立了特色的搜索體系, 以滿足各行各業(yè)用戶的不同搜索需求。
3) 一站化發(fā)展。由于網(wǎng)絡(luò)資源的多樣化, 各式各樣的數(shù)據(jù)類型充斥著整個互聯(lián)網(wǎng), 如文字、語言、語音、視頻、圖片、GIF圖片等, 如何利用一次查詢來獲得各類相關(guān)數(shù)據(jù)資源, 正成為搜索引擎技術(shù)發(fā)展的新方向。這就是一站式搜索。在這個方面, 搜索引擎技術(shù)還面臨著許多關(guān)鍵技術(shù)有待于攻關(guān), 如除文字外其他數(shù)據(jù)資源識別準度不高, 與搜索關(guān)鍵詞之間的匹配度問題難以解決。因此, 一站式搜索將成為以后搜索引擎技術(shù)研發(fā)的一大熱點。
4) 移動搜索迅猛發(fā)展。隨著手機終端用戶量的劇增, 以手機用戶為代表的移動搜索流量已經(jīng)大大超過了PC端用戶。數(shù)據(jù)表明:我國手機搜索用戶數(shù)已達5.93億, 且使用率為81.9%, 足以說明移動搜索已逐漸成為搜索引擎技術(shù)開發(fā)的重點。目前, 移動搜索還處于初步發(fā)展階段, 但它具有不容小覷的發(fā)展?jié)摿蜔o限的商機, 將占有更多的市場份額, 必將主宰未來的搜索引擎市場。
總之, 搜索引擎技術(shù)是網(wǎng)絡(luò)化生活的開端, 是幾億網(wǎng)民捕獲信息的窗口, 也是網(wǎng)絡(luò)化時代不可或缺的關(guān)鍵技術(shù)。靈活選用搜索方式, 把握搜索引擎的時代熱點, 是我們提高信息素養(yǎng)、迎接信息化挑戰(zhàn)的現(xiàn)實選擇!