久久精品水蜜桃av综合天堂,久久精品丝袜高跟鞋,精品国产肉丝袜久久,国产一区二区三区色噜噜,黑人video粗暴亚裔
站長百科 | 數(shù)字化技能提升教程 數(shù)字化時(shí)代生存寶典
首頁
數(shù)字化百科
電子書
建站程序
開發(fā)
服務(wù)器
辦公軟件
開發(fā)教程
服務(wù)器教程
軟件使用教程
運(yùn)營教程
熱門電子書
WordPress教程
寶塔面板教程
CSS教程
Shopify教程
導(dǎo)航
程序頻道
推廣頻道
網(wǎng)賺頻道
人物頻道
網(wǎng)站程序
網(wǎng)頁制作
云計(jì)算
服務(wù)器
CMS
論壇
網(wǎng)店
虛擬主機(jī)
cPanel
網(wǎng)址導(dǎo)航
WIKI使用導(dǎo)航
WIKI首頁
最新資訊
網(wǎng)站程序
站長人物
頁面分類
使用幫助
編輯測試
創(chuàng)建條目
網(wǎng)站地圖
站長百科導(dǎo)航
站長百科
主機(jī)偵探
IDCtalk云說
跨境電商導(dǎo)航
WordPress啦
站長專題
網(wǎng)站推廣
網(wǎng)站程序
網(wǎng)站賺錢
虛擬主機(jī)
cPanel
網(wǎng)址導(dǎo)航專題
云計(jì)算
微博營銷
虛擬主機(jī)管理系統(tǒng)
開放平臺(tái)
WIKI程序與應(yīng)用
美國十大主機(jī)
編輯“
搜索引擎如何索引收錄網(wǎng)頁
”(章節(jié))
人物百科
|
營銷百科
|
網(wǎng)賺百科
|
站長工具
|
網(wǎng)站程序
|
域名主機(jī)
|
互聯(lián)網(wǎng)公司
|
分類索引
跳轉(zhuǎn)至:
導(dǎo)航
、?
搜索
警告:
您沒有登錄。如果您做出任意編輯,您的IP地址將會(huì)公開可見。如果您
登錄
或
創(chuàng)建
一個(gè)賬戶,您的編輯將歸屬于您的用戶名,且將享受其他好處。
反垃圾檢查。
不要
加入這個(gè)!
==收集待索引網(wǎng)頁的url== Internet上存在的網(wǎng)頁數(shù)量絕對(duì)是個(gè)天文數(shù)字,每天新增的網(wǎng)頁也不計(jì)其數(shù),搜索引擎需要首先找到要索引收錄的對(duì)象。 具體到Google而言,雖然對(duì)GoogleBot是否存在DeepBot與FreshBot的區(qū)別存在爭議——至于是否叫這么兩個(gè)名字更是眾說紛耘,當(dāng)然,名字本身并不重要——至少到目前為止,主流的看法是,在Google的[[robots]]中,的確存在著相當(dāng)部分專門為真正的索引收錄頁頁準(zhǔn)備“素材”的robots——在這里我們姑且仍稱之為FreshBot吧——它們的任務(wù)便是每天不停地掃描Internet,以發(fā)現(xiàn)并維護(hù)一個(gè)龐大的[[url]]列表供DeepBot使用,換言之,當(dāng)其訪問、讀取其一個(gè)網(wǎng)頁時(shí),目的并不在于索引這個(gè)網(wǎng)頁,而是找出這個(gè)網(wǎng)頁中的所有鏈接。——當(dāng)然,這樣似乎在效率上存在矛盾,有點(diǎn)不太可信。不過,我們可以簡單地通過以下方式判斷:FreshBot在掃描網(wǎng)頁時(shí)不具備“排它性”,也即是說,位于Google不同的數(shù)據(jù)中心的多個(gè)robots可能在某個(gè)很短的時(shí)間周期,比如說一天甚至一小時(shí),訪問同一個(gè)頁面,而DeepBot在索引、[[緩存]]頁面時(shí)則不會(huì)出現(xiàn)類似的情況,即 Google會(huì)限制由某個(gè)數(shù)據(jù)中心的robots來完成這項(xiàng)工作的,而不會(huì)出現(xiàn)兩個(gè)數(shù)據(jù)中心同時(shí)索引網(wǎng)頁同一個(gè)版本的情況,如果這種說法沒有破綻的話,則似乎可以從服務(wù)器訪問日志中時(shí)??梢钥吹皆醋圆煌琜[IP]]的GoogleBot在很短的時(shí)間內(nèi)多次訪問同一個(gè)網(wǎng)頁證明FreshBot的存在。因此,有時(shí)候發(fā)現(xiàn)GoogleBot頻繁訪問網(wǎng)站也不要高興得太早,也許其根本不是在索引網(wǎng)頁而只是在掃描url。 FreshBot記錄的信息包括網(wǎng)頁的url、Time Stamp(網(wǎng)頁創(chuàng)建或更新的時(shí)間戳),以及網(wǎng)頁的Head信息(注:這一點(diǎn)存在爭議,也有不少人相信FreshBot不會(huì)去讀取目標(biāo)網(wǎng)頁信息的,而是將這部分工作交由DeepBot完成。不過,筆者傾向于前一種說法,因?yàn)樵贔reshBot向DeepBot提交的url列表中,會(huì)將網(wǎng)站設(shè)置禁止索引、收錄的頁面排除在外,以提高效率,而網(wǎng)站進(jìn)行此類設(shè)置時(shí)除使用robots.txt外還有相當(dāng)部分是通過mata標(biāo)簽中的“noindex”實(shí)現(xiàn)的,不讀取目標(biāo)網(wǎng)頁的head似乎是無法實(shí)現(xiàn)這一點(diǎn)的),如果網(wǎng)頁不可訪問,比如說網(wǎng)絡(luò)中斷或[[服務(wù)器]]故障,F(xiàn)reshBot則會(huì)記下該url并擇機(jī)重試,但在該 url可訪問之前,不會(huì)將其加入向DeepBot提交的url列表。 總的來說,F(xiàn)reshBot對(duì)服務(wù)器帶寬、資源的占用還是比較小的。最后,F(xiàn)reshBot對(duì)記錄信息按不同的優(yōu)先級(jí)進(jìn)行分類,向DeepBot提交,根據(jù)優(yōu)先級(jí)不同,主要有以下幾種: * 新建網(wǎng)頁; * 舊網(wǎng)頁/新的Time Stamp,即存在更新的網(wǎng)頁; * 使用[[301]]/[[302]]重定向的網(wǎng)頁; * 復(fù)雜的動(dòng)態(tài)url,如使用多個(gè)參數(shù)的動(dòng)態(tài)url,Google可能需要附加的工作才能正確分析其內(nèi)容?!S著Google對(duì)動(dòng)態(tài)網(wǎng)頁支持能力的提高,這一分類可能已經(jīng)取消; * 其他類型的文件,如指向PDF、DOC文件的鏈接,對(duì)這些文件的索引,也可能需要附加的工作; * 舊網(wǎng)頁/舊的Time Stamp,即未更新的網(wǎng)頁,注意,這里的時(shí)間戳不是以Google搜索結(jié)果中顯示的日期為準(zhǔn),而是與Google索引數(shù)據(jù)庫中的日期比對(duì); * 錯(cuò)誤的url,即訪問時(shí)返回[[404]]回應(yīng)的頁面; 優(yōu)先級(jí)按由A至G的順序排列,依次降低。需要強(qiáng)調(diào)的是,這里所言之優(yōu)先級(jí)是相對(duì)的,比如說同樣是新建網(wǎng)頁,根據(jù)指向其的鏈接質(zhì)量、數(shù)量的不同,優(yōu)先級(jí)也有著很大的區(qū)別,具有源自相關(guān)的權(quán)威網(wǎng)站[[鏈接]]的網(wǎng)頁具有較高的優(yōu)先級(jí)。此外,這里所指的優(yōu)先級(jí)僅針對(duì)同一網(wǎng)站內(nèi)部的頁面,事實(shí)上,不同網(wǎng)站也有有著不同的優(yōu)先級(jí),換言之,對(duì)權(quán)威網(wǎng)站中的網(wǎng)頁而言,即使其最低優(yōu)先級(jí)的404 url,也可能比許多其他網(wǎng)站優(yōu)先級(jí)最高的新建網(wǎng)頁更具優(yōu)勢。
摘要:
請(qǐng)注意,您對(duì)站長百科的所有貢獻(xiàn)都可能被其他貢獻(xiàn)者編輯,修改或刪除。如果您不希望您的文字被任意修改和再散布,請(qǐng)不要提交。
您同時(shí)也要向我們保證您所提交的內(nèi)容是您自己所作,或得自一個(gè)不受版權(quán)保護(hù)或相似自由的來源(參閱
Wordpress-mediawiki:版權(quán)
的細(xì)節(jié))。
未經(jīng)許可,請(qǐng)勿提交受版權(quán)保護(hù)的作品!
取消
編輯幫助
(在新窗口中打開)
取自“
http://kktzf.com.cn/wiki/搜索引擎如何索引收錄網(wǎng)頁
”