久久精品水蜜桃av综合天堂,久久精品丝袜高跟鞋,精品国产肉丝袜久久,国产一区二区三区色噜噜,黑人video粗暴亚裔

Siteserver-信息采集管理-Web頁面信息采集

來自站長百科
跳轉(zhuǎn)至: 導(dǎo)航、? 搜索

導(dǎo)航: 上一頁

Web頁面信息采集

如果沒有使用過Web頁面信息采集功能請參考此文。

這里要給大家做示例的網(wǎng)站是新浪考古發(fā)現(xiàn)頻道 ,這是個比較通用和實(shí)用的規(guī)則。

一、建立采集規(guī)則

點(diǎn)擊系統(tǒng)左側(cè)的“功能管理”→“信息采集管理”→“Web頁面信息采集”進(jìn)入Web頁面信息采集的界面。

點(diǎn)擊界面中的“添加采集規(guī)則”按鈕,進(jìn)入添加采集規(guī)則界面。

  • 采集規(guī)則基本信息

基本信息包括采集規(guī)則的名稱、采集的網(wǎng)站域名以及其他的采集參數(shù)設(shè)置,如下圖:

Siteserver0191.gif

  • 采集規(guī)則名稱以及站點(diǎn)域名您可以取任何您覺得易記的名稱,建議使用目標(biāo)源的名字及域名以便于日后管理。
  • 網(wǎng)頁編碼必須和采集網(wǎng)站的編碼一致,一般使用“簡體中文(GB2312)”。
  • 采集內(nèi)容數(shù)表示需要采集的條數(shù),默認(rèn)為0,代表采集全部內(nèi)容。
  • 下載內(nèi)容圖片項(xiàng)為確定是否下載采集內(nèi)容中的圖片到自己的服務(wù)器,以防對方網(wǎng)站的圖片地址無法訪問。
  • 內(nèi)容標(biāo)題包含為過濾信息,只采集含特定字符串的標(biāo)題內(nèi)容。

其他參數(shù)請參考頁面幫助。

  • 采集內(nèi)容列表信息

列表信息包括采集列表的地址以及采集內(nèi)容地址必須包含的字符串等信息,用于獲取采集內(nèi)容的地址集合,如下圖:

Siteserver0192.gif

以新浪考古發(fā)現(xiàn)頻道為例,起始網(wǎng)頁地址為列表頁的地址“ http://tech.sina.com.cn/discovery/civilization/kgfx.shtml ”。

  • 由于考古發(fā)現(xiàn)頻道沒有翻頁,起始網(wǎng)頁地址只需要選擇“從多個網(wǎng)址”,如果有翻頁還需選擇“從序列相似網(wǎng)址”并填入翻頁數(shù)目。
  • 內(nèi)容地址包含用于過濾采集的內(nèi)容地址,系統(tǒng)將從列表頁中選擇指定格式的地址作為內(nèi)容頁面的鏈接。如上圖所示,系統(tǒng)僅采集包含“ http://tech.sina.com.cn/d/*.shtml ”字符串的內(nèi)容頁面,其中“*”代表任意字符。
  • 區(qū)域內(nèi)網(wǎng)址為頁面某一部分的頁面開始和結(jié)束,系統(tǒng)將采集此部分內(nèi)所有的內(nèi)容地址。此項(xiàng)可不填。
  • 登錄網(wǎng)站Cookie用于采集需要登錄的網(wǎng)站,登錄網(wǎng)站后獲取到cookie信息并填入即可。此項(xiàng)可不填。
  • 采集內(nèi)容頁面信息

內(nèi)容頁面信息包括需要采集的頁面的信息,包括標(biāo)題、內(nèi)容、作者等,如下圖:

Siteserver0193.gif

以新浪考古發(fā)現(xiàn)頻道為例,首先進(jìn)入內(nèi)容頁面,在瀏覽器中選擇“查看源文件”獲取到內(nèi)容頁面的代碼。在代碼中找到內(nèi)容標(biāo)題,然后找到標(biāo)題前面和后面的代碼,拷貝到內(nèi)容標(biāo)題開始以及內(nèi)容標(biāo)題結(jié)束項(xiàng)中。內(nèi)容正文、內(nèi)容欄目、內(nèi)容翻頁等元素與內(nèi)容標(biāo)題相同,找到對應(yīng)代碼后摘錄代碼之前及之后的一段代碼并填入對應(yīng)項(xiàng)中。

Siteserver0194.gif

除默認(rèn)的內(nèi)容標(biāo)題、正文外其他字段同樣能夠采集,在上圖其他需要采集的字段中選擇對應(yīng)的字段即可。需要注意的是內(nèi)容正文排除和內(nèi)容Html清除,這兩項(xiàng)能夠從內(nèi)容正文中過濾不需要的信息,如廣告等。接著點(diǎn)擊下一步便完成了Web頁面信息采集規(guī)則的添加工作。添加完成Web頁面信息采集規(guī)則后接下來需要測試此規(guī)則能否正常工作。

二、測試采集規(guī)則

點(diǎn)擊界面中的“測試”按鈕,進(jìn)入測試采集規(guī)則界面。

Siteserver0195.gif

點(diǎn)擊獲取鏈接按鈕后系統(tǒng)將獲取采集頻道的內(nèi)容列表,如果采集規(guī)則參數(shù)正確,系統(tǒng)將把所有需要采集的內(nèi)容列在下方。如果點(diǎn)擊獲取鏈接后沒有列出內(nèi)容頁列表則證明采集規(guī)則中采集內(nèi)容列表信息參數(shù)設(shè)置需要修改。通過獲取鏈接,可以知道采集內(nèi)容列表信息的參數(shù)設(shè)置是否正確。點(diǎn)擊獲取內(nèi)容按鈕后系統(tǒng)將采集指定的內(nèi)容頁并將采集到的字段信息顯示在右側(cè)。通過獲取內(nèi)容,可以知道采集內(nèi)容頁面信息的參數(shù)設(shè)置是否正確。一般需要經(jīng)過幾次測試+修改的過程一個采集規(guī)則才能夠正式使用。測試通過后下一步便可以開始正式采集頁面了。

三、開始采集

點(diǎn)擊“開始采集”鏈接開始采集Web頁面內(nèi)容,如下圖:

Siteserver0196.gif

采集界面中會列出可能需要修改的參數(shù),一般一個采集規(guī)則可以采集對應(yīng)網(wǎng)站的所有頁面,不同的是每次采集的頻道頁地址不同,所有可以在信息采集界面中修改采集地址以及采集到的欄目,從而重復(fù)利用所加的采集規(guī)則。

Siteserver0197.gif

至此,采集完畢。

四、采集規(guī)則導(dǎo)入導(dǎo)出

采集規(guī)則能夠保存為xml文件并在系統(tǒng)中導(dǎo)入導(dǎo)出,本示例對應(yīng)的采集規(guī)則可以右鍵下載,選擇目標(biāo)另存為將采集文件保存到本機(jī)。下載采集規(guī)則文件后在Web頁面信息采集管理界面中點(diǎn)擊“導(dǎo)入采集規(guī)則”,出現(xiàn)下圖:

Siteserver0198.gif

在上圖中點(diǎn)擊瀏覽,選擇上一步下載的采集規(guī)則文件并點(diǎn)擊導(dǎo)入,采集規(guī)則導(dǎo)入后將可以直接使用。同時系統(tǒng)中的所有采集規(guī)則可以導(dǎo)出為xml文件。


參考資料[ ]