亚洲va国产日韩欧美精品色婷婷,国产精品一区二区三区免费,国产美女做爰免费视,伊人久久久综在合线久久在播

企億推信息網(wǎng)
專注網(wǎng)絡推廣服務

什么是搜索引擎蜘蛛?

搜索引擎蜘蛛產生的背景

隨著網(wǎng)絡的迅速發(fā)展,萬維網(wǎng)成為大量信息的載體,如何有效地提取并利用這些信息成為一個巨大的挑戰(zhàn)。搜索引擎(SearchEngine),例如傳統(tǒng)的通用搜索引擎AltaVista,Yahoo!和Google等,作為一個輔助人們檢索信息的工具成為用戶訪問萬維網(wǎng)的入口和指南。但是,這些通用性搜索引擎也存在著一定的局限性,如:

(1)不同領域、不同背景的用戶往往具有不同的檢索目的和需求,通用搜索引擎所返回的結果包含大量用戶不關心的網(wǎng)頁。

(2)通用搜索引擎的目標是盡可能大的網(wǎng)絡覆蓋率,有限的搜索引擎服務器資源與無限的網(wǎng)絡數(shù)據(jù)資源之間的矛盾將進一步加深。

(3)萬維網(wǎng)數(shù)據(jù)形式的豐富和網(wǎng)絡技術的不斷發(fā)展,圖片、數(shù)據(jù)庫、音頻、視頻多媒體等不同數(shù)據(jù)大量出現(xiàn),通用搜索引擎往往對這些信息含量密集且具有一定結構的數(shù)據(jù)無能為力,不能很好地發(fā)現(xiàn)和獲取。

(4)通用搜索引擎大多提供基于關鍵字的檢索,難以支持根據(jù)語義信息提出的查詢。

為了解決上述問題,定向抓取相關網(wǎng)頁資源的聚焦爬蟲應運而生。聚焦爬蟲是一個自動下載網(wǎng)頁的程序,它根據(jù)既定的抓取目標,有選擇的訪問萬維網(wǎng)上的網(wǎng)頁與相關的鏈接,獲取所需要的信息。與通用爬蟲(generalpurposewebcrawler)不同,聚焦爬蟲并不追求大的覆蓋,而將目標定為抓取與某一特定主題內容相關的網(wǎng)頁,為面向主題的用戶查詢準備數(shù)據(jù)資源。

聚焦爬蟲工作原理以及關鍵技術

網(wǎng)絡爬蟲是一個自動提取網(wǎng)頁的程序,它為搜索引擎從萬維網(wǎng)上下載網(wǎng)頁,是搜索引擎的重要組成。傳統(tǒng)爬蟲從一個或若干初始網(wǎng)頁的URL開始,獲得初始網(wǎng)頁上的URL,在抓取網(wǎng)頁的過程中,不斷從當前頁面上抽取新的URL放入隊列,直到滿足系統(tǒng)的一定停止條件。聚焦爬蟲的工作流程較為復雜,需要根據(jù)一定的網(wǎng)頁分析算法過濾與主題無關的鏈接,保留有用的鏈接并將其放入等待抓取的URL隊列。然后,它將根據(jù)一定的搜索策略從隊列中選擇下一步要抓取的網(wǎng)頁URL,并重復上述過程,直到達到系統(tǒng)的某一條件時停止。另外,所有被爬蟲抓取的網(wǎng)頁將會被系統(tǒng)存貯,進行一定的分析、過濾,并建立索引,以便之后的查詢和檢索;對于聚焦爬蟲來說,這一過程所得到的分析結果還可能對以后的抓取過程給出反饋和指導。

相對于通用網(wǎng)絡爬蟲,聚焦爬蟲還需要解決三個主要問題:

(1)對抓取目標的描述或定義;

(2)對網(wǎng)頁或數(shù)據(jù)的分析與過濾;

(3)對URL的搜索策略。

什么是搜索引擎蜘蛛?(圖1)

搜索引擎蜘蛛面臨的問題

截止到2007年底,Internet上網(wǎng)頁數(shù)量超出160億個,研究表明接近30%的頁面是重復的;動態(tài)頁面的存在:客戶端、服務器端腳本語言的應用使得指向相同Web信息的URL數(shù)量呈指數(shù)級增長。上述特征使得網(wǎng)絡爬蟲面臨一定的困難,主要體現(xiàn)在Web信息的巨大容量使得爬蟲在給定時間內只能下載少量網(wǎng)頁。Lawrence和Giles的研究表明沒有哪個搜索引擎能夠索引超出16%的Internet上Web頁面,即使能夠提取全部頁面,也沒有足夠的空間來存儲。

為提高爬行效率,爬蟲需要在單位時間內盡可能多的獲取高質量頁面,是它面臨的難題之一。當前有五種表示頁面質量高低的方式:Similarity(頁面與爬行主題之間的相似度)、Backlink(頁面在Web圖中的入度大小)、PageRank(指向它的所有頁面平均權值之和)、Forwardlink(頁面在Web圖中的出度大小)、Location(頁面的信息位置);Parallel(并行性問題)[3]。為了提高爬行速度,網(wǎng)絡通常會采取并行爬行的工作方式,隨之引入了新的問題:重復性(并行運行的爬蟲或爬行線程同時運行時增加了重復頁面)、質量問題(并行運行時,每個爬蟲或爬行線程只能獲取部分頁面,導致頁面質量下降)、通信帶寬代價(并行運行時,各個爬蟲或爬行線程之間不可避免要進行一些通信)。并行運行時,網(wǎng)絡爬蟲通常采用三種方式:獨立方式(各個爬蟲獨立爬行頁面,互不通信)、動態(tài)分配方式(由一個中央?yún)f(xié)調器動態(tài)協(xié)調分配URL給各個爬蟲)、靜態(tài)分配方式(URL事先劃分給各個爬蟲)。

未經允許不得轉載:啟新網(wǎng)站SEO優(yōu)化 » 什么是搜索引擎蜘蛛?
分享到: 更多 (0)
加載中~