搜索引擎抓回頁面,下一步是分析頁面內(nèi)容,主要包括確定頁面類型、提取頁面主題、去除頁面噪音、去除停止詞、中文分詞、注冊統(tǒng)計、重新建立關(guān)鍵詞索引數(shù)據(jù)庫
判斷頁面是普通頁面還是PDF、WPS、PPT、TXT等特殊頁面;區(qū)分文本、圖片、視頻等內(nèi)容形式,識別頁面網(wǎng)站、論壇、視頻站、文本站等
目前搜索引擎基本上不識別JS、AJAX、flash、圖像、視頻、框架和iframe框架結(jié)構(gòu)的內(nèi)容。它們主要通過文本關(guān)鍵字捕獲文本處理和搜索信息。提取頁面級功能內(nèi)容,如標題、關(guān)鍵字和描述。這些特征在網(wǎng)頁的內(nèi)容相關(guān)性中占很大比例。在正常情況下,它還指示網(wǎng)頁的主題
刪除不相關(guān)的廣告、登錄框、版權(quán)聲明和其他噪音內(nèi)容,并提取主題內(nèi)容。這部分不是很嚴格,每個搜索引擎的處理也不一樣。一般來說,推薦內(nèi)容、錨文本、導(dǎo)航等仍然很有價值
分詞在中文搜索引擎中是一個獨特的步驟。搜索引擎需要識別哪些單詞可以組合成單詞。每個搜索引擎都有自己的大型詞庫。根據(jù)詞表匹配,漢語分詞主要有兩種方法:基于詞典的匹配和基于統(tǒng)計的分詞。它們各有優(yōu)缺點。在實際應(yīng)用中,他們混合了這種方法,不僅快速有效,還可以識別新詞并消除歧義
百度搜索引擎可以使用快照頁面查看輸入文本被劃分為哪些關(guān)鍵字,如下所示:
分詞的目的是了解網(wǎng)頁的內(nèi)容。首先刪除“de”、“de”、“ah”和“Ba”等停止詞,以使頁面文本的主題內(nèi)容更加突出。當然,虛詞不是很好。例如,以“啊”為主題介紹新華字典的發(fā)音、意思、用法等頁面,“啊”是主題關(guān)鍵詞。關(guān)鍵詞排名優(yōu)化是不斷跟蹤和分析搜索引擎條目和歷史數(shù)據(jù)
分詞后,搜索引擎會計算每個單詞出現(xiàn)在頁面上的次數(shù)并計算密度,以便搜索引擎能夠識別頁面內(nèi)容的相關(guān)性。建議關(guān)鍵詞布局密度在2%到8%之間。如果太低,可能會被認為是主題內(nèi)容的低相關(guān)性,如果太高,可能會被認為是不喜歡關(guān)鍵字堆疊,這很容易受到懲罰
從網(wǎng)站索引的建立,我們可以估計網(wǎng)站的優(yōu)化結(jié)果
內(nèi)容相關(guān)性:除了頁面標題、關(guān)鍵字、描述和單詞密度,H標簽(H1標簽也很重,通常用于文章標題,H2和H3標簽也有一定的效果,通常用于分段主題,但H4之后不會),加粗體標簽的內(nèi)容明顯比其他普通標簽更受關(guān)注。此外,核心關(guān)鍵詞最好出現(xiàn)在頁面的前面,而不是后面。錨文本鏈接相關(guān)性作為重要數(shù)據(jù)收集和分析
搜索引擎喜歡原始內(nèi)容,不喜歡許多重復(fù)的內(nèi)容頁。完成上述步驟后,他們可以識別頁面的內(nèi)容功能,并再次重復(fù)內(nèi)容頁面
經(jīng)過上述處理后,記錄頁面關(guān)鍵字集,并記錄詞頻、位置和格式(H標記、粗體和錨文本)等權(quán)重因子。搜索引擎為頁面和關(guān)鍵字表創(chuàng)建索引結(jié)構(gòu)。該指數(shù)有兩種結(jié)構(gòu):正向指數(shù)結(jié)構(gòu)和反向指數(shù)結(jié)構(gòu)。在正向索引結(jié)構(gòu)中,每個文件對應(yīng)一個文件ID,文件內(nèi)容表示為一組關(guān)鍵字
搜索引擎用戶按關(guān)鍵字搜索。正索引不利于查詢效率。搜索引擎將把正向索引變成反向索引。反向索引結(jié)構(gòu)是關(guān)鍵字到文件集的映射。用戶只會檢索索引頁面
包括:只要搜索引擎蜘蛛能夠捕捉到,經(jīng)過分析,有價值的頁面就會被包括
索引:如果搜索引擎已經(jīng)包括頁面,并且認為用戶有有有意義的會議內(nèi)容,它可能會創(chuàng)建一個索引,并且可能會有流量。網(wǎng)站排名優(yōu)化基于已被索引的網(wǎng)頁
奇藝推送SEO的小編輯提醒您,只要網(wǎng)站結(jié)構(gòu)清晰,內(nèi)容有價值,網(wǎng)站定期更新,站長平臺就會提交鏈接和傳出鏈接,以改進網(wǎng)站上搜索引擎的收集和索引。很有可能在2-7天內(nèi)優(yōu)化主頁
百度蜘蛛抓取多少頁面不是很重要,重要的是建立多少頁面的索引庫。搜索引擎的索引數(shù)據(jù)庫是分層的。高質(zhì)量的網(wǎng)頁將分配給重要的索引數(shù)據(jù)庫,普通網(wǎng)頁將保留在普通數(shù)據(jù)庫中,較差的網(wǎng)頁將分配給低級數(shù)據(jù)庫作為補充材料。目前,60%的檢索需求只能通過使用重要的索引庫來滿足,這也是一些網(wǎng)站的收藏量太高,但流量不理想的原因
進入高質(zhì)量索引數(shù)據(jù)庫的前提是對用戶的價值。包括但不限于:
事實上,互聯(lián)網(wǎng)上的大多數(shù)網(wǎng)站根本不被百度收錄。并不是百度沒有找到它們,而是建立數(shù)據(jù)庫之前的篩選過程被過濾掉了。過濾初期:
一些內(nèi)容使用百度蜘蛛無法解析的技術(shù),如JS、AJAX、flash、圖片、視頻等。