久久精品水蜜桃av综合天堂,久久精品丝袜高跟鞋,精品国产肉丝袜久久,国产一区二区三区色噜噜,黑人video粗暴亚裔
站長(zhǎng)百科 | 數(shù)字化技能提升教程 數(shù)字化時(shí)代生存寶典
首頁(yè)
數(shù)字化百科
電子書(shū)
建站程序
開(kāi)發(fā)
服務(wù)器
辦公軟件
開(kāi)發(fā)教程
服務(wù)器教程
軟件使用教程
運(yùn)營(yíng)教程
熱門(mén)電子書(shū)
WordPress教程
寶塔面板教程
CSS教程
Shopify教程
導(dǎo)航
程序頻道
推廣頻道
網(wǎng)賺頻道
人物頻道
網(wǎng)站程序
網(wǎng)頁(yè)制作
云計(jì)算
服務(wù)器
CMS
論壇
網(wǎng)店
虛擬主機(jī)
cPanel
網(wǎng)址導(dǎo)航
WIKI使用導(dǎo)航
WIKI首頁(yè)
最新資訊
網(wǎng)站程序
站長(zhǎng)人物
頁(yè)面分類(lèi)
使用幫助
編輯測(cè)試
創(chuàng)建條目
網(wǎng)站地圖
站長(zhǎng)百科導(dǎo)航
站長(zhǎng)百科
主機(jī)偵探
IDCtalk云說(shuō)
跨境電商導(dǎo)航
WordPress啦
站長(zhǎng)專(zhuān)題
網(wǎng)站推廣
網(wǎng)站程序
網(wǎng)站賺錢(qián)
虛擬主機(jī)
cPanel
網(wǎng)址導(dǎo)航專(zhuān)題
云計(jì)算
微博營(yíng)銷(xiāo)
虛擬主機(jī)管理系統(tǒng)
開(kāi)放平臺(tái)
WIKI程序與應(yīng)用
美國(guó)十大主機(jī)
編輯“
網(wǎng)絡(luò)蜘蛛
”
人物百科
|
營(yíng)銷(xiāo)百科
|
網(wǎng)賺百科
|
站長(zhǎng)工具
|
網(wǎng)站程序
|
域名主機(jī)
|
互聯(lián)網(wǎng)公司
|
分類(lèi)索引
跳轉(zhuǎn)至:
導(dǎo)航
、?
搜索
警告:
您沒(méi)有登錄。如果您做出任意編輯,您的IP地址將會(huì)公開(kāi)可見(jiàn)。如果您
登錄
或
創(chuàng)建
一個(gè)賬戶(hù),您的編輯將歸屬于您的用戶(hù)名,且將享受其他好處。
反垃圾檢查。
不要
加入這個(gè)!
'''網(wǎng)絡(luò)蜘蛛'''(Web Spider)又稱(chēng)為:“網(wǎng)絡(luò)爬蟲(chóng)”,“機(jī)器人”,簡(jiǎn)稱(chēng)“蜘蛛”。是通過(guò)[[網(wǎng)頁(yè)]]的鏈接地址來(lái)尋找網(wǎng)頁(yè),從[[網(wǎng)站]]某一個(gè)頁(yè)面(通常是首頁(yè))開(kāi)始,讀取網(wǎng)頁(yè)的內(nèi)容,找到在網(wǎng)頁(yè)中的其它鏈接地址,然后通過(guò)這些鏈接地址尋找下一個(gè)網(wǎng)頁(yè),這樣一直循環(huán)下去,直到把這個(gè)網(wǎng)站所有的網(wǎng)頁(yè)都抓取完為止。如果把整個(gè)[[互聯(lián)網(wǎng)]]當(dāng)成一個(gè)網(wǎng)站,那么網(wǎng)絡(luò)蜘蛛就可以用這個(gè)原理把互聯(lián)網(wǎng)上所有的網(wǎng)頁(yè)都抓取下來(lái)。 網(wǎng)絡(luò)蜘蛛就是一個(gè)爬行[[程序]],一個(gè)抓取網(wǎng)頁(yè)的程序。網(wǎng)絡(luò)蜘蛛與[[搜索引擎]]有著比較密切的關(guān)系,目前全球知名的搜索引擎[[google]]、[[百度]]、[[雅虎]]等都為各自開(kāi)發(fā)了網(wǎng)絡(luò)蜘蛛程序。 Google為了獲取上億的網(wǎng)頁(yè),設(shè)計(jì)了一個(gè)分布式的爬行系統(tǒng)。一個(gè)[[URL]][[服務(wù)器]]將URL列表提供給網(wǎng)絡(luò)爬行器。每個(gè)爬行器同時(shí)保持大約300個(gè)網(wǎng)絡(luò)連接。在最高速度的時(shí)候,通過(guò)4個(gè)爬行器,該系統(tǒng)可以每秒種獲取超過(guò)100個(gè)網(wǎng)頁(yè)。 影響爬行速度的一個(gè)重要因素是[[DNS]]查詢(xún),為此每個(gè)爬行器都要維護(hù)一個(gè)自己的DNS緩沖。這樣每個(gè)連接都處于不同的狀態(tài),包括DNS查詢(xún)、連到主機(jī)、發(fā)送請(qǐng)求、得到響應(yīng)。這些因素綜合起來(lái)使得爬行器變成一個(gè)非常復(fù)雜的系統(tǒng)。它通過(guò)異步輸入/輸出來(lái)管理事件,通過(guò)一定數(shù)量的隊(duì)列來(lái)管理獲取網(wǎng)頁(yè)過(guò)程中的狀態(tài)遷移。 ==抓取網(wǎng)頁(yè)的策略== 在抓取網(wǎng)頁(yè)的時(shí)候,網(wǎng)絡(luò)蜘蛛一般有兩種策略:廣度優(yōu)先和深度優(yōu)先。 [[Image:spider_cl.jpg|right|thumb|350px|網(wǎng)絡(luò)蜘蛛抓取策略]] '''廣度優(yōu)先'''是指網(wǎng)絡(luò)蜘蛛會(huì)先抓取起始網(wǎng)頁(yè)中鏈接的所有網(wǎng)頁(yè),然后再選擇其中的一個(gè)鏈接網(wǎng)頁(yè),繼續(xù)抓取在此網(wǎng)頁(yè)中鏈接的所有網(wǎng)頁(yè)。這是最常用的方式,因?yàn)檫@個(gè)方法可以讓網(wǎng)絡(luò)蜘蛛并行處理,提高其抓取速度。 '''深度優(yōu)先'''是指網(wǎng)絡(luò)蜘蛛會(huì)從起始頁(yè)開(kāi)始,一個(gè)鏈接一個(gè)鏈接跟蹤下去,處理完這條線(xiàn)路之后再轉(zhuǎn)入下一個(gè)起始頁(yè),繼續(xù)跟蹤鏈接。這個(gè)方法有個(gè)優(yōu)點(diǎn)是網(wǎng)絡(luò)蜘蛛在設(shè)計(jì)的時(shí)候比較容易。 兩種策略的區(qū)別: 由于不可能抓取所有的網(wǎng)頁(yè),有些網(wǎng)絡(luò)蜘蛛對(duì)一些不太重要的網(wǎng)站,設(shè)置了訪(fǎng)問(wèn)的層數(shù)。例如,在右圖中,A為起始網(wǎng)頁(yè),屬于0層,B、C、D、E、F屬于第1 層,G、H屬于第2層,I屬于第3層。如果網(wǎng)絡(luò)蜘蛛設(shè)置的訪(fǎng)問(wèn)層數(shù)為2的話(huà),網(wǎng)頁(yè)I是不會(huì)被訪(fǎng)問(wèn)到的。這也讓有些網(wǎng)站上一部分網(wǎng)頁(yè)能夠在搜索引擎上搜索到,另外一部分不能被搜索到。對(duì)于網(wǎng)站設(shè)計(jì)者來(lái)說(shuō),扁平化的網(wǎng)站結(jié)構(gòu)設(shè)計(jì)有助于搜索引擎抓取其更多的網(wǎng)頁(yè)。 網(wǎng)絡(luò)蜘蛛在訪(fǎng)問(wèn)網(wǎng)站網(wǎng)頁(yè)的時(shí)候,經(jīng)常會(huì)遇到加密數(shù)據(jù)和網(wǎng)頁(yè)權(quán)限的問(wèn)題,有些網(wǎng)頁(yè)是需要會(huì)員權(quán)限才能訪(fǎng)問(wèn)。當(dāng)然,網(wǎng)站的所有者可以通過(guò)協(xié)議讓網(wǎng)絡(luò)蜘蛛不去抓取,但對(duì)于一些出售報(bào)告的網(wǎng)站,他們希望搜索引擎能搜索到他們的報(bào)告,但又不能完全免費(fèi)的讓搜索者查看,這樣就需要給網(wǎng)絡(luò)蜘蛛提供相應(yīng)的用戶(hù)名和密碼。網(wǎng)絡(luò)蜘蛛可以通過(guò)所給的權(quán)限對(duì)這些網(wǎng)頁(yè)進(jìn)行網(wǎng)頁(yè)抓取,從而提供搜索。而當(dāng)搜索者點(diǎn)擊查看該網(wǎng)頁(yè)的時(shí)候,同樣需要搜索者提供相應(yīng)的權(quán)限驗(yàn)證。 ==更新周期== 由于網(wǎng)站的內(nèi)容經(jīng)常在變化,因此網(wǎng)絡(luò)蜘蛛也需不斷的更新其抓取網(wǎng)頁(yè)的內(nèi)容,這就需要網(wǎng)絡(luò)蜘蛛按照一定的周期去掃描網(wǎng)站,查看哪些頁(yè)面是需要更新的頁(yè)面,哪些頁(yè)面是新增頁(yè)面,哪些頁(yè)面是已經(jīng)過(guò)期的[[死鏈接]]。 搜索引擎的更新周期對(duì)搜索引擎搜索的查全率有很大影響。如果更新周期太長(zhǎng),則總會(huì)有一部分新生成的網(wǎng)頁(yè)搜索不到;周期過(guò)短,技術(shù)實(shí)現(xiàn)會(huì)有一定難度,而且會(huì)對(duì)帶寬、服務(wù)器的資源都有浪費(fèi)。搜索引擎的網(wǎng)絡(luò)蜘蛛并不是所有的網(wǎng)站都采用同一個(gè)周期進(jìn)行更新,對(duì)于一些重要的更新量大的網(wǎng)站,更新的周期短,如有些新聞網(wǎng)站,幾個(gè)小時(shí)就更新一次;相反對(duì)于一些不重要的網(wǎng)站,更新的周期就長(zhǎng),可能一兩個(gè)月才更新一次。 一般來(lái)說(shuō),網(wǎng)絡(luò)蜘蛛在更新網(wǎng)站內(nèi)容的時(shí)候,不用把網(wǎng)站網(wǎng)頁(yè)重新抓取一遍,對(duì)于大部分的網(wǎng)頁(yè),只需要判斷網(wǎng)頁(yè)的屬性(主要是日期),把得到的屬性和上次抓取的屬性相比較,如果一樣則不用更新。 ==相關(guān)條目== *[[搜索引擎]] ==參考來(lái)源== *[http://www.vanclsale.cn/a/post/71.html 參考來(lái)源1] *[http://www.798m.com.cn/archiver/?tid-5839.html 參考來(lái)源2] *[http://www.seo-service.com.cn/seo/se_spider.html 參考來(lái)源3] [[category:搜索引擎|W]] [[category:SEO術(shù)語(yǔ)|W]]
摘要:
請(qǐng)注意,您對(duì)站長(zhǎng)百科的所有貢獻(xiàn)都可能被其他貢獻(xiàn)者編輯,修改或刪除。如果您不希望您的文字被任意修改和再散布,請(qǐng)不要提交。
您同時(shí)也要向我們保證您所提交的內(nèi)容是您自己所作,或得自一個(gè)不受版權(quán)保護(hù)或相似自由的來(lái)源(參閱
Wordpress-mediawiki:版權(quán)
的細(xì)節(jié))。
未經(jīng)許可,請(qǐng)勿提交受版權(quán)保護(hù)的作品!
取消
編輯幫助
(在新窗口中打開(kāi))
取自“
http://kktzf.com.cn/wiki/網(wǎng)絡(luò)蜘蛛
”