對(duì)于一些新手而言,DedeCMS的采集功能可能顯得有些陌生。本文將詳細(xì)介紹DedeCMS的采集功能,以及如何通過過濾規(guī)則確保采集內(nèi)容的整潔與品質(zhì)。
一、DedeCMS基礎(chǔ)的過濾規(guī)則
DedeCMS提供了簡(jiǎn)單易用的過濾規(guī)則,其基本語(yǔ)法如下:
{dede:trim}這里就是要過濾的內(nèi)容{/dede:trim}
如果要過濾的內(nèi)容比較簡(jiǎn)單,可以直接將內(nèi)容寫在 `{dede:trim}` 和 `{/dede:trim}` 之間;如果內(nèi)容較為復(fù)雜,可能需要用到正則表達(dá)式。
二、DedeCMS過濾超鏈接
要在采集過程中去除內(nèi)容中的超鏈接,可以使用以下規(guī)則:
{dede:trim}<a([^>]*)>{/dede:trim} {dede:trim}</a>{/dede:trim}
如果希望完全移除超鏈接及其內(nèi)容,規(guī)則應(yīng)為:
{dede:trim}<a([^>]*)>([^<]*)</a>{/dede:trim}
示例:
假設(shè)要處理的代碼如下:
<a href="#" rel="external nofollow" >超鏈接</a>
使用第一條規(guī)則,采集結(jié)果為“超鏈接”,但使用第二條規(guī)則,結(jié)果為空,也就是將所有內(nèi)容過濾掉了。
三、DedeCMS過濾廣告
在處理廣告時(shí),通過HTML代碼中的特征來(lái)設(shè)定過濾規(guī)則。例如,對(duì)于引用JS文件的廣告,可以使用:
{dede:trim}<script(.*)>{/dede:trim} {dede:trim}</script>{/dede:trim}
如果廣告內(nèi)容是嵌入在 `<script></script>` 之間的,例如某些網(wǎng)頁(yè)廣告,則應(yīng)使用:
{dede:trim}<script>(.*)</script>{/dede:trim}
四、DedeCMS常用過濾規(guī)則合集
為了便于站長(zhǎng)們使用,這里列出一些常見的過濾規(guī)則:
{dede:trim}<!–(.*)–>{/dede:trim} {dede:trim}<select([^>]*)>([^>]*)</select>{/dede:trim} {dede:trim}<embed([^>]*)>([^>]*)</embed>{/dede:trim} {dede:trim}<object([^>]*)>([^>]*)</object>{/dede:trim} {dede:trim}<iframe([^>]*)>([^>]*)</iframe>{/dede:trim} {dede:trim}<font([^>]*)>([^<]*)</font>{/dede:trim} {dede:trim}<td([^>]*)>([^>]*)</td>{/dede:trim} {dede:trim}<tr([^>]*)>([^>]*)</tr>{/dede:trim} {dede:trim}<tbody([^>]*)>([^>]*)</tbody>{/dede:trim} {dede:trim}<table([^>]*)>([^>]*)</table>{/dede:trim}
注意事項(xiàng):
在使用以下規(guī)則時(shí),請(qǐng)務(wù)必小心,以免意外刪除重要內(nèi)容:
{dede:trim}<div(.*)>{/dede:trim} {dede:trim}</div>{/dede:trim} {dede:trim}<span(.*)>{/dede:trim} {dede:trim}</span>{/dede:trim}