久久精品水蜜桃av综合天堂,久久精品丝袜高跟鞋,精品国产肉丝袜久久,国产一区二区三区色噜噜,黑人video粗暴亚裔
站長百科 | 數(shù)字化技能提升教程 數(shù)字化時(shí)代生存寶典
首頁
數(shù)字化百科
電子書
建站程序
開發(fā)
服務(wù)器
辦公軟件
開發(fā)教程
服務(wù)器教程
軟件使用教程
運(yùn)營教程
熱門電子書
WordPress教程
寶塔面板教程
CSS教程
Shopify教程
導(dǎo)航
程序頻道
推廣頻道
網(wǎng)賺頻道
人物頻道
網(wǎng)站程序
網(wǎng)頁制作
云計(jì)算
服務(wù)器
CMS
論壇
網(wǎng)店
虛擬主機(jī)
cPanel
網(wǎng)址導(dǎo)航
WIKI使用導(dǎo)航
WIKI首頁
最新資訊
網(wǎng)站程序
站長人物
頁面分類
使用幫助
編輯測試
創(chuàng)建條目
網(wǎng)站地圖
站長百科導(dǎo)航
站長百科
主機(jī)偵探
IDCtalk云說
跨境電商導(dǎo)航
WordPress啦
站長專題
網(wǎng)站推廣
網(wǎng)站程序
網(wǎng)站賺錢
虛擬主機(jī)
cPanel
網(wǎng)址導(dǎo)航專題
云計(jì)算
微博營銷
虛擬主機(jī)管理系統(tǒng)
開放平臺
WIKI程序與應(yīng)用
美國十大主機(jī)
編輯“
搜索引擎如何索引收錄網(wǎng)頁
”
人物百科
|
營銷百科
|
網(wǎng)賺百科
|
站長工具
|
網(wǎng)站程序
|
域名主機(jī)
|
互聯(lián)網(wǎng)公司
|
分類索引
跳轉(zhuǎn)至:
導(dǎo)航
、?
搜索
警告:
您沒有登錄。如果您做出任意編輯,您的IP地址將會(huì)公開可見。如果您
登錄
或
創(chuàng)建
一個(gè)賬戶,您的編輯將歸屬于您的用戶名,且將享受其他好處。
反垃圾檢查。
不要
加入這個(gè)!
'''搜索引擎如何索引收錄網(wǎng)頁''',對[[SEO]]([[搜索引擎優(yōu)化]])而言,讓[[網(wǎng)站]]內(nèi)的頁面能夠及時(shí)、全面地被搜索引擎索引、收錄應(yīng)該說是首要的任務(wù),這是實(shí)施其他SEO策略的最基本保證。 ——不過,這也是往往易被高估的一個(gè)環(huán)節(jié),比如說我們時(shí)??梢钥吹侥承┤诵Q自己的網(wǎng)站被[[Google]]收錄了多少頁面如幾K甚至幾十K等以證明SEO工作的成功。但客觀地說,[[網(wǎng)頁]]僅僅被搜索引擎索引、收錄是沒有太大的實(shí)際意義,往往只能淪為浩如煙海的[[Internet]]世界中的殉葬品,更重要的是如何讓網(wǎng)頁出現(xiàn)在針對特定搜索項(xiàng)的SERP(搜索結(jié)果頁面)前幾頁?!S多人相信,讓網(wǎng)站內(nèi)盡可能多的頁面被收錄進(jìn)搜索引擎索引[[數(shù)據(jù)庫]]終歸不是一件壞事,網(wǎng)頁越多,暴光的機(jī)會(huì)也便越大,雖然最終效果如何存在疑問。 如果在對網(wǎng)站實(shí)施SEO時(shí)將重點(diǎn)放在網(wǎng)頁被索引、收錄的速度與效率,當(dāng)然也無可厚非,而要想實(shí)現(xiàn)這一點(diǎn),需要我們對搜索引擎如何收錄、索引網(wǎng)頁的機(jī)制有所了解。下面我們以Google為例,介紹搜索引擎收錄、索引網(wǎng)頁的過程,希望能對朋友們有后助益?!獙ζ渌阉饕嫒?[[Yahoo!]]、Live搜索及[[百度]]而言,盡管可能在具體細(xì)節(jié)上存在差別,不過,基本策略應(yīng)該是類似的。 ==收集待索引網(wǎng)頁的url== Internet上存在的網(wǎng)頁數(shù)量絕對是個(gè)天文數(shù)字,每天新增的網(wǎng)頁也不計(jì)其數(shù),搜索引擎需要首先找到要索引收錄的對象。 具體到Google而言,雖然對GoogleBot是否存在DeepBot與FreshBot的區(qū)別存在爭議——至于是否叫這么兩個(gè)名字更是眾說紛耘,當(dāng)然,名字本身并不重要——至少到目前為止,主流的看法是,在Google的[[robots]]中,的確存在著相當(dāng)部分專門為真正的索引收錄頁頁準(zhǔn)備“素材”的robots——在這里我們姑且仍稱之為FreshBot吧——它們的任務(wù)便是每天不停地掃描Internet,以發(fā)現(xiàn)并維護(hù)一個(gè)龐大的[[url]]列表供DeepBot使用,換言之,當(dāng)其訪問、讀取其一個(gè)網(wǎng)頁時(shí),目的并不在于索引這個(gè)網(wǎng)頁,而是找出這個(gè)網(wǎng)頁中的所有鏈接?!?dāng)然,這樣似乎在效率上存在矛盾,有點(diǎn)不太可信。不過,我們可以簡單地通過以下方式判斷:FreshBot在掃描網(wǎng)頁時(shí)不具備“排它性”,也即是說,位于Google不同的數(shù)據(jù)中心的多個(gè)robots可能在某個(gè)很短的時(shí)間周期,比如說一天甚至一小時(shí),訪問同一個(gè)頁面,而DeepBot在索引、[[緩存]]頁面時(shí)則不會(huì)出現(xiàn)類似的情況,即 Google會(huì)限制由某個(gè)數(shù)據(jù)中心的robots來完成這項(xiàng)工作的,而不會(huì)出現(xiàn)兩個(gè)數(shù)據(jù)中心同時(shí)索引網(wǎng)頁同一個(gè)版本的情況,如果這種說法沒有破綻的話,則似乎可以從服務(wù)器訪問日志中時(shí)常可以看到源自不同[[IP]]的GoogleBot在很短的時(shí)間內(nèi)多次訪問同一個(gè)網(wǎng)頁證明FreshBot的存在。因此,有時(shí)候發(fā)現(xiàn)GoogleBot頻繁訪問網(wǎng)站也不要高興得太早,也許其根本不是在索引網(wǎng)頁而只是在掃描url。 FreshBot記錄的信息包括網(wǎng)頁的url、Time Stamp(網(wǎng)頁創(chuàng)建或更新的時(shí)間戳),以及網(wǎng)頁的Head信息(注:這一點(diǎn)存在爭議,也有不少人相信FreshBot不會(huì)去讀取目標(biāo)網(wǎng)頁信息的,而是將這部分工作交由DeepBot完成。不過,筆者傾向于前一種說法,因?yàn)樵贔reshBot向DeepBot提交的url列表中,會(huì)將網(wǎng)站設(shè)置禁止索引、收錄的頁面排除在外,以提高效率,而網(wǎng)站進(jìn)行此類設(shè)置時(shí)除使用robots.txt外還有相當(dāng)部分是通過mata標(biāo)簽中的“noindex”實(shí)現(xiàn)的,不讀取目標(biāo)網(wǎng)頁的head似乎是無法實(shí)現(xiàn)這一點(diǎn)的),如果網(wǎng)頁不可訪問,比如說網(wǎng)絡(luò)中斷或[[服務(wù)器]]故障,F(xiàn)reshBot則會(huì)記下該url并擇機(jī)重試,但在該 url可訪問之前,不會(huì)將其加入向DeepBot提交的url列表。 總的來說,F(xiàn)reshBot對服務(wù)器帶寬、資源的占用還是比較小的。最后,F(xiàn)reshBot對記錄信息按不同的優(yōu)先級進(jìn)行分類,向DeepBot提交,根據(jù)優(yōu)先級不同,主要有以下幾種: * 新建網(wǎng)頁; * 舊網(wǎng)頁/新的Time Stamp,即存在更新的網(wǎng)頁; * 使用[[301]]/[[302]]重定向的網(wǎng)頁; * 復(fù)雜的動(dòng)態(tài)url,如使用多個(gè)參數(shù)的動(dòng)態(tài)url,Google可能需要附加的工作才能正確分析其內(nèi)容?!S著Google對動(dòng)態(tài)網(wǎng)頁支持能力的提高,這一分類可能已經(jīng)取消; * 其他類型的文件,如指向PDF、DOC文件的鏈接,對這些文件的索引,也可能需要附加的工作; * 舊網(wǎng)頁/舊的Time Stamp,即未更新的網(wǎng)頁,注意,這里的時(shí)間戳不是以Google搜索結(jié)果中顯示的日期為準(zhǔn),而是與Google索引數(shù)據(jù)庫中的日期比對; * 錯(cuò)誤的url,即訪問時(shí)返回[[404]]回應(yīng)的頁面; 優(yōu)先級按由A至G的順序排列,依次降低。需要強(qiáng)調(diào)的是,這里所言之優(yōu)先級是相對的,比如說同樣是新建網(wǎng)頁,根據(jù)指向其的鏈接質(zhì)量、數(shù)量的不同,優(yōu)先級也有著很大的區(qū)別,具有源自相關(guān)的權(quán)威網(wǎng)站[[鏈接]]的網(wǎng)頁具有較高的優(yōu)先級。此外,這里所指的優(yōu)先級僅針對同一網(wǎng)站內(nèi)部的頁面,事實(shí)上,不同網(wǎng)站也有有著不同的優(yōu)先級,換言之,對權(quán)威網(wǎng)站中的網(wǎng)頁而言,即使其最低優(yōu)先級的404 url,也可能比許多其他網(wǎng)站優(yōu)先級最高的新建網(wǎng)頁更具優(yōu)勢。 ==網(wǎng)頁的索引與收錄== 接下來才進(jìn)入真正的索引與收錄網(wǎng)頁過程。從上面的介紹可以看出,F(xiàn)reshBot提交的url列表是相當(dāng)龐大的,根據(jù)語言、網(wǎng)站位置等不同,對特定網(wǎng)站的索引工作將分配至不同的數(shù)據(jù)中心完成。整個(gè)索引過程,由于龐大的數(shù)據(jù)量,可能需要幾周甚至更長時(shí)間才能完成。 正如上文所言,DeepBot會(huì)首先索引優(yōu)先級較高的網(wǎng)站/網(wǎng)頁,優(yōu)先級越高,出現(xiàn)在Google索引數(shù)據(jù)庫及至最終出現(xiàn)在Google搜索結(jié)果頁面中的速度便越快。對新建網(wǎng)頁而言,只要進(jìn)入到這個(gè)階段,即使整個(gè)索引過程沒有完成,相應(yīng)的網(wǎng)頁便已具備出現(xiàn)在Google索引庫中的可能,相信許多朋友在Google中使用“site:somedomain.com”搜索時(shí)常??吹綐?biāo)注為補(bǔ)充結(jié)果只顯示網(wǎng)頁url或只顯示網(wǎng)頁標(biāo)題與url但沒有描述的頁面,此即是處于這一階段網(wǎng)頁的正常結(jié)果。當(dāng)Google真正讀取、分析、緩存了這個(gè)頁面后,其便會(huì)從補(bǔ)充結(jié)果中逃出而顯示正常的信息?!?dāng)然,前提是該網(wǎng)頁具有足夠的鏈接,特別是來自權(quán)威網(wǎng)站的鏈接,并且,索引庫中沒有與該網(wǎng)頁內(nèi)容相同或近似的記錄(Duplicate Content過濾)。 對動(dòng)態(tài)url而言,雖然如今Google宣稱在對其處理方面已不存在障礙,不過,可以觀察到的事實(shí)仍然顯示動(dòng)態(tài)url出現(xiàn)在補(bǔ)充結(jié)果中的幾率遠(yuǎn)大于使用靜態(tài)url的網(wǎng)頁,往往需要更多、更有價(jià)值的鏈接才能從補(bǔ)充結(jié)果中逸出。 而對于上文中之“F”類,即未更新的網(wǎng)頁,DeepBot會(huì)將其時(shí)間戳與Google索引數(shù)據(jù)庫中的日期比對,確認(rèn)盡管可能搜索結(jié)果中相應(yīng)頁面信息未來得及更新但只要索引了最新版本即可——考慮網(wǎng)頁多次更新、修改的情況——;至于“G”類即404 url,則會(huì)查找索引庫中是否存在相應(yīng)的記錄,如果有,將其刪除。 ==數(shù)據(jù)中心間的同步== 前文我們提到過,DeepBot索引某個(gè)網(wǎng)頁時(shí)會(huì)由特定的數(shù)據(jù)中心完成,而不會(huì)出現(xiàn)多個(gè)數(shù)據(jù)中心同時(shí)讀取該網(wǎng)頁,分別獲得網(wǎng)頁最近版本的情況,這樣,在索引過程完成后,便需要一個(gè)數(shù)據(jù)同步過程,將網(wǎng)頁的最新版本在多個(gè)數(shù)據(jù)中心得到更新。 這就是之前著名的Google Dance。不過,在BigDaddy更新后,數(shù)據(jù)中心間的同步不再象那樣集中在特定的時(shí)間段,而是以一種連續(xù)的、時(shí)效性更強(qiáng)的方式進(jìn)行。盡管不同數(shù)據(jù)中心間仍存在一定的差異,但差異已經(jīng)不大,而且,維持的時(shí)間也很短。 提高搜索引擎索引收錄網(wǎng)頁的效率,根據(jù)上面的介紹,可以看出,要想讓您的網(wǎng)頁盡可能快、盡可能多地被搜索引擎收錄,至少應(yīng)從如下幾方面進(jìn)行優(yōu)化: 提高網(wǎng)站[[反向鏈接]]的數(shù)量與質(zhì)量,源自權(quán)威網(wǎng)站的鏈接可以讓您的網(wǎng)站/網(wǎng)頁在第一時(shí)間內(nèi)被搜索引擎“看到”。當(dāng)然,這也是老生常談了。從上面的介紹可以看出,要提高網(wǎng)頁被搜索引擎收錄的效率,首先要讓搜索引擎找到您的網(wǎng)頁,鏈接是搜索引擎找到網(wǎng)頁的唯一途徑——“唯一”一詞存在些許爭議,見下面的 SiteMaps部分——從這個(gè)角度看,向搜索引擎提交網(wǎng)站之類的作法沒有必要且沒有意義,相對而言,要想讓您的網(wǎng)站被收錄,獲得外部網(wǎng)站的鏈接才是根本,同時(shí),高質(zhì)量的鏈接也是讓網(wǎng)頁步出補(bǔ)充結(jié)果的關(guān)鍵因素。 網(wǎng)頁設(shè)計(jì)要秉持“搜索引擎友好”的原則,從搜索引擎spider的視角設(shè)計(jì)與優(yōu)化網(wǎng)頁,確保網(wǎng)站的內(nèi)部鏈接對搜索引擎“可見”,相對于獲得外部網(wǎng)站鏈接的難度,合理規(guī)劃的內(nèi)部鏈接是提高搜索引擎索引與收錄效率更經(jīng)濟(jì)、有效的途徑——除非網(wǎng)站根本未被搜索引擎收錄。 如果您的網(wǎng)站使用動(dòng)態(tài)url,或者導(dǎo)航菜單使用[[JavaScript]],那么,當(dāng)在網(wǎng)頁收錄方面遇到障礙時(shí),應(yīng)首先從這里著手。 使用[[SiteMaps]]。事實(shí)上,許多人認(rèn)為Google取消了FreshBot的一個(gè)主要原因便是SiteMaps([[xml]])協(xié)議的廣泛應(yīng)用,認(rèn)為這樣只需讀取網(wǎng)站提供的SiteMaps便可得到網(wǎng)頁更新信息,而不需FreshBot耗時(shí)費(fèi)力地掃描。這種說法還是有一定道理的,雖然目前不能確定 Google究竟直接使用SiteMaps作為DeepBot的索引列表還是用做FreshBot的掃描路標(biāo),但SiteMaps能夠提高網(wǎng)站索引收錄的效率則是不爭的事實(shí)。比如說,SEO探索曾做過如下的測試: 兩個(gè)網(wǎng)頁,獲得的鏈接情況相同,一個(gè)加入SiteMaps而另一未加入,出現(xiàn)在SiteMaps中的網(wǎng)頁很快被收錄,而另一個(gè)頁面則在過了很長時(shí)間后才被收錄; 某個(gè)孤島頁面,沒有任何指向其的鏈接,但將其加入SiteMaps一段時(shí)間后,同樣被Google索引,只不過,出現(xiàn)在補(bǔ)充結(jié)果中。 當(dāng)然,從盡管網(wǎng)頁未出現(xiàn)在SiteMaps中但仍能被Google索引也可以看出,Google仍然使用FreshBot或類似FreshBot的機(jī)制,當(dāng)然這也容易理解,畢竟仍然有那么多未使用SiteMaps的網(wǎng)站,Google不可能將其拒之門外。 有關(guān)SiteMaps的詳細(xì)介紹,請參考Google SiteMaps:Google的“后門”。需要指出的是,如今Sitemaps協(xié)議已成為行業(yè)標(biāo)準(zhǔn),不獨(dú)對Google有效,其他主流搜索引擎包括 Yahoo!、Live搜索及Ask均已提供支持。 '''注:本文中的信息部分來自公開文獻(xiàn),部分純屬作者揣測,可能有不足之處,用戶閱讀時(shí)請注意結(jié)合實(shí)際。''' ==相關(guān)條目== *[[關(guān)鍵字的選擇和關(guān)鍵詞工具]] *[[分析網(wǎng)站流量的異常變化]] *[[運(yùn)營網(wǎng)站的七個(gè)瓶頸]] ==參考來源== *[http://www.starow.net/seo-tech/how-google-indexing-pages/ 參考來源1] [[category:推廣方法|S]]
摘要:
請注意,您對站長百科的所有貢獻(xiàn)都可能被其他貢獻(xiàn)者編輯,修改或刪除。如果您不希望您的文字被任意修改和再散布,請不要提交。
您同時(shí)也要向我們保證您所提交的內(nèi)容是您自己所作,或得自一個(gè)不受版權(quán)保護(hù)或相似自由的來源(參閱
Wordpress-mediawiki:版權(quán)
的細(xì)節(jié))。
未經(jīng)許可,請勿提交受版權(quán)保護(hù)的作品!
取消
編輯幫助
(在新窗口中打開)
取自“
http://kktzf.com.cn/wiki/搜索引擎如何索引收錄網(wǎng)頁
”