久久精品水蜜桃av综合天堂,久久精品丝袜高跟鞋,精品国产肉丝袜久久,国产一区二区三区色噜噜,黑人video粗暴亚裔

網(wǎng)頁抓取

來自站長百科
跳轉(zhuǎn)至: 導(dǎo)航、? 搜索

網(wǎng)頁抓取主要有三個(gè)方面:1、搜集新出現(xiàn)的網(wǎng)頁;2、搜集那些在上次搜集后有改變的網(wǎng)頁;3、發(fā)現(xiàn)自從上次搜集后已經(jīng)不再存了的網(wǎng)頁,并從庫中刪除。

網(wǎng)頁抓取的優(yōu)先策略[ ]

通常是盡可能的首先抓取重要性的網(wǎng)頁,這樣保證在有限的資源內(nèi)盡可能地照顧到那些重要性高的網(wǎng)頁。

什么是重要性高的網(wǎng)頁呢,主要由這三個(gè)方面決定的:

鏈接歡迎度[ ]

鏈接歡迎度主要是由反向鏈接的數(shù)目和質(zhì)量決定的。

鏈接重要度[ ]

鏈接重要度它是關(guān)于一個(gè)URL字符串的函數(shù),僅僅考察字符串本身,它主要通過一些模式,如認(rèn)為包含|“。com”,“HOME”的URL重要度高,以及包含較少斜杠的URL重要度高等。

平均鏈接的深度[ ]

平均鏈接的深度表示在一個(gè)種子站點(diǎn)集合中,每個(gè)種子站點(diǎn)如果存在一條鏈路到達(dá)該網(wǎng)頁,那么平均鏈接深度又是該網(wǎng)頁的一個(gè)鏈接指標(biāo),因?yàn)榫嚯x種子站點(diǎn)越近說明被訪問的機(jī)會(huì)越多。

相關(guān)條目[ ]

參考來源[ ]