WIKI使用導(dǎo)航
站長百科導(dǎo)航
站長專題
- 網(wǎng)站推廣
- 網(wǎng)站程序
- 網(wǎng)站賺錢
- 虛擬主機
- cPanel
- 網(wǎng)址導(dǎo)航專題
- 云計算
- 微博營銷
- 虛擬主機管理系統(tǒng)
- 開放平臺
- WIKI程序與應(yīng)用
- 美國十大主機
Phpcms:采集器
導(dǎo)航: 上一級 | PHPCMS | 首頁 | DedeCMS | 帝國CMS | Drupal | PHP168 | Xoops | Joomla | PowerEasy | SupeSite
PHPCMS內(nèi)部采集器
- 采集演示一
采集文章需要先獲取文章的地址,通常我們打開的是欄目列表頁面,phpcms后臺---功能模塊---采集器;
采集匹配規(guī)則:前部分需要是唯一的。后面為緊跟著的匹配
打開這個頁面向里面填入信息(http://news.sina.com.cn/china/sz/index.html)
國內(nèi)全部為要獲取的區(qū)域前部分
某篇區(qū)域內(nèi)獲取列表:填入這個后,可以有效的獲取列表代碼段。可以排除列表外,如導(dǎo)航鏈接,相關(guān)新聞鏈接等
往日新聞為列表結(jié)尾
找到標(biāo)題
保存,開始測試
文章添加時間可以是隨機時間,也可以是按照當(dāng)前時間進(jìn)行添加。
發(fā)布后,
到該頻道下面--管理文章
我們已經(jīng)采集到了。不過現(xiàn)在文章還沒有生成靜態(tài)。需要生成下
進(jìn)入發(fā)布網(wǎng)頁 可指定生成的開始id和結(jié)尾id
最終效果如圖
- 采集演示二
打開 http://book.phpip.com/more.php?class_id=2 我們開始采集武俠小說欄目的文章
在這個頁面當(dāng)中,有作品名稱和最后章節(jié)都有鏈接地址。
添加任務(wù):
首先分析:
作品名:http://book.phpip.com/zuopin.php?book_id=20115
最后章節(jié):http://book.phpip.com/yuedu.php?book_id=20115&chapter_id=371896
我們發(fā)現(xiàn)在最后章節(jié)中含有chapter_id,
文章網(wǎng)址篩選 中添加
此頁面具有分頁
我們點擊下一頁,然后再點擊上一頁。發(fā)現(xiàn)地址變?yōu)?
第一頁:http://book.phpip.com/more.php?navigator_page=1&class_id=2
第二頁:http://book.phpip.com/more.php?navigator_page=2&class_id=2
不同的地方已經(jīng)出來。
我們?nèi)我獯蜷_一篇文章:
http://book.phpip.com/yuedu.php?book_id=29781&chapter_id=372679
開始找尋內(nèi)容規(guī)則:
查看源碼
我們先找標(biāo)題:所選部分前面的要是唯一的
內(nèi)容:
保存。
開始測試...
我們發(fā)現(xiàn)采集的名稱都是亂碼。
我們看源文件最上面的編碼方式
是utf-8編碼的站點。
我們進(jìn)入規(guī)則高級設(shè)置
繼續(xù)測試
測試成功。
開始采集網(wǎng)址--發(fā)布內(nèi)容---批量生成。
Phpcms桌面采集器
火車采集器(LocoySpider) 是一個供各大主流文章系統(tǒng),論壇系統(tǒng)等使用的多線程內(nèi)容采集發(fā)布程序。使用火車采集器,你可以瞬間建立一個擁有龐大內(nèi)容的網(wǎng)站。系統(tǒng)支持遠(yuǎn)程圖片下載,圖片批量水印,Flash下載,下載文件地址探測,自制作發(fā)表的CMS模塊參數(shù),自定義發(fā)表的內(nèi)容等。此外,豐富的規(guī)則制定,內(nèi)容替換功能,對Access,MySQL,MSSQL的數(shù)據(jù)入庫導(dǎo)出的支持,更可令你采集內(nèi)容的時候得心應(yīng)手,現(xiàn)在開始你可以拋棄過去重復(fù)乏味的手工添加工作了,請馬上開始體驗瞬間建站的樂趣吧!
火車采集器(LocoySpider)是一款功能強大且易于上手的專業(yè)采集軟件,強大的內(nèi)容采集和數(shù)據(jù)導(dǎo)入功能能將您采集的任何網(wǎng)頁數(shù)據(jù)發(fā)布到遠(yuǎn)程服務(wù)器,自定義用戶cms系統(tǒng)模塊,不管你的網(wǎng)站是什么系統(tǒng),都有可能使用上火車采集器,系統(tǒng)自帶的模塊文件支持:風(fēng)訊文章,動易文章,動網(wǎng)論壇,PHPWIND論壇,Discuz論壇,phpcms文章,phparticle文章,LeadBBS論壇,魔力論壇,DedeCMS文章,Xydw文章,驚云]文章等的模塊文件。更多cms模塊請自己參照制作修改,也可到官方網(wǎng)站與大家交流制作。 同時您也可以使用系統(tǒng)的數(shù)據(jù)導(dǎo)出功能,利用系統(tǒng)內(nèi)置標(biāo)簽,將采集到的數(shù)據(jù)對應(yīng)表的字段導(dǎo)出到本地任何一款A(yù)ccess,MySql,MS SqlServer內(nèi)。
由于PHPCMS采用的特殊的登錄驗證,而采集器軟件內(nèi)將這一塊寫死,導(dǎo)致最新的PHPCMS3.0->2007一直無法使用火車采集器在線發(fā)布文章,為解決該問題,我寫了一個PHP接口文件和PHPCMS2007的登錄模塊,請大家下載試用,附部分使用說明
附件包內(nèi)文件:
1.phpcms_art_add_locoy.php
2.PHPCMS2007.cwr
請將文件1上傳至PHPCMS根目錄,將文件2拷貝至采集器軟件內(nèi)Module文件夾,phpcms_art_add_locoy.php文件是軟件發(fā)布的接口文件,不存在太大風(fēng)險,但仍建議采集使用完建議刪除該文件,或重命名并更改該模塊內(nèi)的相應(yīng)刷新列表頁面和發(fā)布文件頁面的文件名參數(shù)
附件包下載地址:點擊下載
Phpcms部分截圖
部分地方需要修改模塊:如頻道ID變了,更改接口文件名,是否下載圖片等遠(yuǎn)程文件請對照圖中修改模塊中相關(guān)部分,文章是默認(rèn)生成的,并在采集的過程中自動生成文章頁并更新欄目頁
火車采集器3.1下載:點擊下載