WIKI使用導(dǎo)航
站長百科導(dǎo)航
站長專題
- 網(wǎng)站推廣
- 網(wǎng)站程序
- 網(wǎng)站賺錢
- 虛擬主機(jī)
- cPanel
- 網(wǎng)址導(dǎo)航專題
- 云計(jì)算
- 微博營銷
- 虛擬主機(jī)管理系統(tǒng)
- 開放平臺
- WIKI程序與應(yīng)用
- 美國十大主機(jī)
網(wǎng)頁抓取
來自站長百科
網(wǎng)頁抓取主要有三個(gè)方面:1、搜集新出現(xiàn)的網(wǎng)頁;2、搜集那些在上次搜集后有改變的網(wǎng)頁;3、發(fā)現(xiàn)自從上次搜集后已經(jīng)不再存了的網(wǎng)頁,并從庫中刪除。
網(wǎng)頁抓取的優(yōu)先策略[ ]
通常是盡可能的首先抓取重要性的網(wǎng)頁,這樣保證在有限的資源內(nèi)盡可能地照顧到那些重要性高的網(wǎng)頁。
什么是重要性高的網(wǎng)頁呢,主要由這三個(gè)方面決定的:
鏈接歡迎度[ ]
鏈接歡迎度主要是由反向鏈接的數(shù)目和質(zhì)量決定的。
鏈接重要度[ ]
鏈接重要度它是關(guān)于一個(gè)URL字符串的函數(shù),僅僅考察字符串本身,它主要通過一些模式,如認(rèn)為包含|“。com”,“HOME”的URL重要度高,以及包含較少斜杠的URL重要度高等。
平均鏈接的深度[ ]
平均鏈接的深度表示在一個(gè)種子站點(diǎn)集合中,每個(gè)種子站點(diǎn)如果存在一條鏈路到達(dá)該網(wǎng)頁,那么平均鏈接深度又是該網(wǎng)頁的一個(gè)鏈接指標(biāo),因?yàn)榫嚯x種子站點(diǎn)越近說明被訪問的機(jī)會(huì)越多。