查看其它板塊

火車頭采集器如何過濾掉多余的標(biāo)簽（純正則替換）

來源：常見問題解疑 - 遠(yuǎn)策科技 | 2022-01-24

火車采集器幾乎所有網(wǎng)頁都能采集，用途很廣。比如網(wǎng)站采集內(nèi)容、采集數(shù)據(jù)挖掘客戶、輿情監(jiān)測、文件批量下載等。我日常主要用于網(wǎng)站日常采集文章，今天分享下如何通過火車采集器得到一個(gè)”標(biāo)準(zhǔn)“的內(nèi)容。

這里所謂的標(biāo)準(zhǔn)，是所采集的文章每一個(gè)段落都是，沒有多余的HTML標(biāo)簽和與主題無關(guān)的字符。這里我們可以通過純正則替換達(dá)到我們的目的。

以下為一些常用的純正則替換規(guī)則示例：

清除與正文無關(guān)的內(nèi)容

正則<header>[\s\S]*?</header>|| |規(guī)則4|規(guī)則5

替換空

如文中的廣告，注釋等。如果發(fā)布到一些免費(fèi)平臺，有的HTML特殊字符并不會被轉(zhuǎn)化，只需在末尾加入'|&.*?;'過濾掉最后特殊HTML字符即可。

只保留圖片以及常用的塊級元素

正則 (?i)<(?!/?h|/?p|/?div|br|img).*?>

替換空

只保留標(biāo)題標(biāo)簽 h 分段標(biāo)簽 p、div、br 以及圖像標(biāo)簽 img ;前面的(?i)表示不區(qū)分大小寫

把標(biāo)簽修改為p

正則<(?!img)(/?)\w+.*?>

替換<$1p>

去掉除了img標(biāo)簽外的所有標(biāo)簽的選擇器或樣式，并把標(biāo)簽修改為p，如果需要保留其他標(biāo)簽可以參考這樣寫 <(?!img)(?!h)(?!/h)(/?)\w+.*?> 這里是保留img和h標(biāo)題標(biāo)簽

改成標(biāo)準(zhǔn)圖像代碼

正則<img.*?src="(.+?)".*?>

替換<img src="$1">

把亂七八糟的圖像樣式，改成標(biāo)準(zhǔn)圖像代碼

規(guī)范段落標(biāo)簽

正則</?p>

替換

規(guī)范段落標(biāo)簽開始結(jié)束，某些站個(gè)別文章,結(jié)束后沒有開始就直接是下個(gè)段落的內(nèi)容

段落去除前后空格

正則 \s*(<\/?p>)\s*

替換$1

把或前后的空格替換為空

去除多余P標(biāo)簽

正則(){2,}|(){2,}

替換$1$2

把連續(xù)2個(gè)以上的或替換為1個(gè)

去除空段落

內(nèi)容

替換空

把所有的空段落替換為空，普通替換即可

清理多余標(biāo)簽

正則 ^|$

替換空

由于第五步的關(guān)系，文章開頭可能是結(jié)尾可能是需要清理他們

其他可能用到的

過濾英文正則[a-zA-Z]

過濾兩位以上的數(shù)字(\d{2,100})

返回首頁了解更多常見問題解疑

遠(yuǎn)策科技

河北遠(yuǎn)策科技有限公司以工匠精神打造精致服務(wù)，不循規(guī)蹈矩，不驚世駭俗，為企業(yè)互聯(lián)網(wǎng)營銷整合方案，服務(wù)涵蓋：網(wǎng)站建設(shè)、網(wǎng)站推廣、品牌優(yōu)化、微信開發(fā)、VI設(shè)計(jì)、視頻制作等。解決企業(yè)互聯(lián)網(wǎng)營銷難題，讓企業(yè)不再為推廣而煩惱。

遠(yuǎn)見卓識

10年網(wǎng)站建設(shè)推廣經(jīng)驗(yàn)

18家優(yōu)秀合作設(shè)計(jì)機(jī)構(gòu)

117家品牌長期合作共贏

1000+網(wǎng)站建設(shè)案例作品

專注營銷型網(wǎng)站建設(shè)定制

深厚經(jīng)驗(yàn)網(wǎng)站建設(shè)團(tuán)隊(duì)

完備的項(xiàng)目流程管理體系

企業(yè)一站式網(wǎng)絡(luò)推廣服務(wù)

策無遺算

一路走來，崇尚創(chuàng)意是我們的活力和根源，讓客戶滿意是我們工作的目標(biāo)，不斷超越客戶的期望值源自我們對這個(gè)行業(yè)的熱愛！遠(yuǎn)策科技結(jié)合十年互聯(lián)網(wǎng)品牌設(shè)計(jì)經(jīng)驗(yàn)和整合營銷的理念，將策略和執(zhí)行緊密結(jié)合，有效提升企業(yè)推廣整體表現(xiàn)！

建站公司地址：石家莊市長安嘉和廣場1911、裕華區(qū)ICC環(huán)球智慧中心24F | 業(yè)務(wù)咨詢：131-1155-0088 , 159-3167-7513

河北遠(yuǎn)策網(wǎng)絡(luò)公司為您提供石家莊網(wǎng)站建設(shè)制作,網(wǎng)站優(yōu)化推廣,網(wǎng)站改版托管等 | 冀ICP備18035311號-1 | SITEMAP | 冀公網(wǎng)安備:13010202002454號

男女性高爱潮免费网站,九九久久精品无码专区,无码日韩人妻AV一区二区三区,国产熟女露脸大叫高潮

首頁

網(wǎng)站建設(shè)

營銷推廣

微信開發(fā)

資訊

案例

聯(lián)系

探知 ? 創(chuàng)造美好

查看其它板塊

火車頭采集器如何過濾掉多余的標(biāo)簽（純正則替換）

快捷標(biāo)簽

多一份參考，總有益處

遠(yuǎn)策科技

遠(yuǎn)見卓識

策無遺算

相關(guān)鏈接展開

遠(yuǎn)策 - 建站推廣一站式服務(wù)

131-1155-0088

關(guān)于

Yuan Ce

探知 ? 創(chuàng)造美好

查看其它板塊

火車頭采集器如何過濾掉多余的標(biāo)簽（純正則替換）

快捷標(biāo)簽

多一份參考，總有益處

遠(yuǎn)策科技

遠(yuǎn)見卓識

策無遺算

相關(guān)鏈接 展開

遠(yuǎn)策 - 建站推廣一站式服務(wù)

131-1155-0088

微信掃碼 立即咨詢

多一份參考，總有益處

相關(guān)鏈接展開

微信掃碼立即咨詢