編輯“Siteserver-信息采集管理-Web頁面信息采集”

<span style="text-align:center; border:1px solid #000; float:right; padding:6px;"><strong>導航:</strong> [[Siteserver使用教程|上一頁]]</span>
<div style="clear:both;"></div>

'''[[Web]]頁面信息采集'''

如果沒有使用過Web頁面信息采集功能請參考此文。

這里要給大家做示例的網站是[[新浪]]的 '''考古發(fā)現頻道''' ，這是個比較通用和實用的規(guī)則。

'''一、建立采集規(guī)則'''

點擊系統(tǒng)左側的“'''功能管理'''”→“'''信息采集管理'''”→“'''Web頁面信息采集'''”進入Web頁面信息采集的界面。

點擊界面中的“添加采集規(guī)則”按鈕，進入添加采集規(guī)則界面。

*'''采集規(guī)則基本信息'''

基本信息包括采集規(guī)則的名稱、采集的[[網站]][[域名]]以及其他的采集參數設置，如下圖：

[[Image:Siteserver0191.gif]]

* 采集規(guī)則名稱以及站點域名您可以取任何您覺得易記的名稱，建議使用目標源的名字及域名以便于日后管理。 
* 網頁編碼必須和采集[[網站]]的編碼一致，一般使用“簡體中文(GB2312)”。
* 采集內容數表示需要采集的條數，默認為0，代表采集全部內容。
* 下載內容圖片項為確定是否下載采集內容中的圖片到自己的服務器，以防對方網站的圖片地址無法訪問。
* 內容標題包含為過濾信息，只采集含特定字符串的標題內容。

其他參數請參考頁面幫助。

*'''采集內容列表信息'''

列表信息包括采集列表的地址以及采集內容地址必須包含的字符串等信息，用于獲取采集內容的地址集合，如下圖：

[[Image:Siteserver0192.gif]]

以新浪考古發(fā)現頻道為例，起始網頁地址為列表頁的地址“ http://tech.sina.com.cn/discovery/civilization/kgfx.shtml ”。
*由于考古發(fā)現頻道沒有翻頁，起始網頁地址只需要選擇“從多個網址”，如果有翻頁還需選擇“從序列相似網址”并填入翻頁數目。
*內容地址包含用于過濾采集的內容地址，系統(tǒng)將從列表頁中選擇指定格式的地址作為內容頁面的鏈接。如上圖所示，系統(tǒng)僅采集包含“ <nowiki>http://tech.sina.com.cn/d/*.shtml</nowiki> ”字符串的內容頁面，其中“*”代表任意字符。
*區(qū)域內網址為頁面某一部分的頁面開始和結束，系統(tǒng)將采集此部分內所有的內容地址。此項可不填。
*登錄網站[[Cookie]]用于采集需要登錄的網站，登錄網站后獲取到cookie信息并填入即可。此項可不填。

*'''采集內容頁面信息'''

內容頁面信息包括需要采集的頁面的信息，包括標題、內容、作者等，如下圖：

[[Image:Siteserver0193.gif]]

以新浪考古發(fā)現頻道為例，首先進入內容頁面，在瀏覽器中選擇“查看源文件”獲取到內容頁面的代碼。在代碼中找到內容標題，然后找到標題前面和后面的代碼，拷貝到內容標題開始以及內容標題結束項中。內容正文、內容欄目、內容翻頁等元素與內容標題相同，找到對應代碼后摘錄代碼之前及之后的一段代碼并填入對應項中。

[[Image:Siteserver0194.gif]]

除默認的內容標題、正文外其他字段同樣能夠采集，在上圖其他需要采集的字段中選擇對應的字段即可。需要注意的是內容正文排除和內容Html清除，這兩項能夠從內容正文中過濾不需要的信息，如廣告等。接著點擊下一步便完成了[[Web]]頁面信息采集規(guī)則的添加工作。添加完成Web頁面信息采集規(guī)則后接下來需要測試此規(guī)則能否正常工作。

'''二、測試采集規(guī)則'''

點擊界面中的“測試”按鈕，進入測試采集規(guī)則界面。

[[Image:Siteserver0195.gif]]

點擊獲取鏈接按鈕后系統(tǒng)將獲取采集頻道的內容列表，如果采集規(guī)則參數正確，系統(tǒng)將把所有需要采集的內容列在下方。如果點擊獲取鏈接后沒有列出內容頁列表則證明采集規(guī)則中采集內容列表信息參數設置需要修改。通過獲取鏈接，可以知道采集內容列表信息的參數設置是否正確。點擊獲取內容按鈕后系統(tǒng)將采集指定的內容頁并將采集到的字段信息顯示在右側。通過獲取內容，可以知道采集內容頁面信息的參數設置是否正確。一般需要經過幾次測試+修改的過程一個采集規(guī)則才能夠正式使用。測試通過后下一步便可以開始正式采集頁面了。

'''三、開始采集'''

點擊“開始采集”鏈接開始采集Web頁面內容，如下圖：

[[Image:Siteserver0196.gif]]

采集界面中會列出可能需要修改的參數，一般一個采集規(guī)則可以采集對應網站的所有頁面，不同的是每次采集的頻道頁地址不同，所有可以在信息采集界面中修改采集地址以及采集到的欄目，從而重復利用所加的采集規(guī)則。

[[Image:Siteserver0197.gif]]

至此，采集完畢。

'''四、采集規(guī)則導入導出'''

采集規(guī)則能夠保存為[[xml]]文件并在系統(tǒng)中導入導出，本示例對應的采集規(guī)則可以右鍵下載，選擇目標另存為將采集文件保存到本機。'''下載'''采集規(guī)則文件后在Web頁面信息采集管理界面中點擊“導入采集規(guī)則”，出現下圖：

[[Image:Siteserver0198.gif]]

在上圖中點擊瀏覽，選擇上一步下載的采集規(guī)則文件并點擊導入，采集規(guī)則導入后將可以直接使用。同時系統(tǒng)中的所有采集規(guī)則可以導出為xml文件。



==參考資料==
*[http://help.siteserver.cn SiteServer官方]

[[category:SiteServer|S]]