Siteserver-信息采集管理-Web頁面信息采集

導(dǎo)航: 上一頁

Web頁面信息采集

如果沒有使用過Web頁面信息采集功能請參考此文。

這里要給大家做示例的網(wǎng)站是新浪的 考古發(fā)現(xiàn)頻道 ，這是個比較通用和實(shí)用的規(guī)則。

一、建立采集規(guī)則

點(diǎn)擊系統(tǒng)左側(cè)的“功能管理”→“信息采集管理”→“Web頁面信息采集”進(jìn)入Web頁面信息采集的界面。

點(diǎn)擊界面中的“添加采集規(guī)則”按鈕，進(jìn)入添加采集規(guī)則界面。

采集規(guī)則基本信息

基本信息包括采集規(guī)則的名稱、采集的網(wǎng)站域名以及其他的采集參數(shù)設(shè)置，如下圖：

采集規(guī)則名稱以及站點(diǎn)域名您可以取任何您覺得易記的名稱，建議使用目標(biāo)源的名字及域名以便于日后管理。
網(wǎng)頁編碼必須和采集網(wǎng)站的編碼一致，一般使用“簡體中文(GB2312)”。
采集內(nèi)容數(shù)表示需要采集的條數(shù)，默認(rèn)為0，代表采集全部內(nèi)容。
下載內(nèi)容圖片項(xiàng)為確定是否下載采集內(nèi)容中的圖片到自己的服務(wù)器，以防對方網(wǎng)站的圖片地址無法訪問。
內(nèi)容標(biāo)題包含為過濾信息，只采集含特定字符串的標(biāo)題內(nèi)容。

其他參數(shù)請參考頁面幫助。

采集內(nèi)容列表信息

列表信息包括采集列表的地址以及采集內(nèi)容地址必須包含的字符串等信息，用于獲取采集內(nèi)容的地址集合，如下圖：

以新浪考古發(fā)現(xiàn)頻道為例，起始網(wǎng)頁地址為列表頁的地址“ http://tech.sina.com.cn/discovery/civilization/kgfx.shtml ”。

由于考古發(fā)現(xiàn)頻道沒有翻頁，起始網(wǎng)頁地址只需要選擇“從多個網(wǎng)址”，如果有翻頁還需選擇“從序列相似網(wǎng)址”并填入翻頁數(shù)目。
內(nèi)容地址包含用于過濾采集的內(nèi)容地址，系統(tǒng)將從列表頁中選擇指定格式的地址作為內(nèi)容頁面的鏈接。如上圖所示，系統(tǒng)僅采集包含“ http://tech.sina.com.cn/d/*.shtml ”字符串的內(nèi)容頁面，其中“*”代表任意字符。
區(qū)域內(nèi)網(wǎng)址為頁面某一部分的頁面開始和結(jié)束，系統(tǒng)將采集此部分內(nèi)所有的內(nèi)容地址。此項(xiàng)可不填。
登錄網(wǎng)站Cookie用于采集需要登錄的網(wǎng)站，登錄網(wǎng)站后獲取到cookie信息并填入即可。此項(xiàng)可不填。

采集內(nèi)容頁面信息

內(nèi)容頁面信息包括需要采集的頁面的信息，包括標(biāo)題、內(nèi)容、作者等，如下圖：

以新浪考古發(fā)現(xiàn)頻道為例，首先進(jìn)入內(nèi)容頁面，在瀏覽器中選擇“查看源文件”獲取到內(nèi)容頁面的代碼。在代碼中找到內(nèi)容標(biāo)題，然后找到標(biāo)題前面和后面的代碼，拷貝到內(nèi)容標(biāo)題開始以及內(nèi)容標(biāo)題結(jié)束項(xiàng)中。內(nèi)容正文、內(nèi)容欄目、內(nèi)容翻頁等元素與內(nèi)容標(biāo)題相同，找到對應(yīng)代碼后摘錄代碼之前及之后的一段代碼并填入對應(yīng)項(xiàng)中。

除默認(rèn)的內(nèi)容標(biāo)題、正文外其他字段同樣能夠采集，在上圖其他需要采集的字段中選擇對應(yīng)的字段即可。需要注意的是內(nèi)容正文排除和內(nèi)容Html清除，這兩項(xiàng)能夠從內(nèi)容正文中過濾不需要的信息，如廣告等。接著點(diǎn)擊下一步便完成了Web頁面信息采集規(guī)則的添加工作。添加完成Web頁面信息采集規(guī)則后接下來需要測試此規(guī)則能否正常工作。

二、測試采集規(guī)則

點(diǎn)擊界面中的“測試”按鈕，進(jìn)入測試采集規(guī)則界面。

點(diǎn)擊獲取鏈接按鈕后系統(tǒng)將獲取采集頻道的內(nèi)容列表，如果采集規(guī)則參數(shù)正確，系統(tǒng)將把所有需要采集的內(nèi)容列在下方。如果點(diǎn)擊獲取鏈接后沒有列出內(nèi)容頁列表則證明采集規(guī)則中采集內(nèi)容列表信息參數(shù)設(shè)置需要修改。通過獲取鏈接，可以知道采集內(nèi)容列表信息的參數(shù)設(shè)置是否正確。點(diǎn)擊獲取內(nèi)容按鈕后系統(tǒng)將采集指定的內(nèi)容頁并將采集到的字段信息顯示在右側(cè)。通過獲取內(nèi)容，可以知道采集內(nèi)容頁面信息的參數(shù)設(shè)置是否正確。一般需要經(jīng)過幾次測試+修改的過程一個采集規(guī)則才能夠正式使用。測試通過后下一步便可以開始正式采集頁面了。

三、開始采集

點(diǎn)擊“開始采集”鏈接開始采集Web頁面內(nèi)容，如下圖：

采集界面中會列出可能需要修改的參數(shù)，一般一個采集規(guī)則可以采集對應(yīng)網(wǎng)站的所有頁面，不同的是每次采集的頻道頁地址不同，所有可以在信息采集界面中修改采集地址以及采集到的欄目，從而重復(fù)利用所加的采集規(guī)則。

至此，采集完畢。

四、采集規(guī)則導(dǎo)入導(dǎo)出

采集規(guī)則能夠保存為xml文件并在系統(tǒng)中導(dǎo)入導(dǎo)出，本示例對應(yīng)的采集規(guī)則可以右鍵下載，選擇目標(biāo)另存為將采集文件保存到本機(jī)。下載采集規(guī)則文件后在Web頁面信息采集管理界面中點(diǎn)擊“導(dǎo)入采集規(guī)則”，出現(xiàn)下圖：

在上圖中點(diǎn)擊瀏覽，選擇上一步下載的采集規(guī)則文件并點(diǎn)擊導(dǎo)入，采集規(guī)則導(dǎo)入后將可以直接使用。同時系統(tǒng)中的所有采集規(guī)則可以導(dǎo)出為xml文件。

參考資料[ ]

SiteServer官方

久久精品水蜜桃av综合天堂,久久精品丝袜高跟鞋,精品国产肉丝袜久久,国产一区二区三区色噜噜,黑人video粗暴亚裔

WIKI使用導(dǎo)航

站長百科導(dǎo)航

站長專題

Siteserver-信息采集管理-Web頁面信息采集

參考資料[ ]