淘金网
售后使用说明5:火车头采集标签的数据处理
2020-3-2 淘小白


很多朋友从淘小白这里买过去规则之后,采集的内容可能会存在自己不想要的内容,还想自己修改下,今天淘小白来和大家说下数据处理方面的使用。



1.png



点击可以查看大图



点击规则-右边-编辑-点击采集标签,就会出现数据处理的内容了,点击+号 常用的数据处理有以下几个: 内容替换、html标签过滤、智能提取、高级功能



2.png



1、内容替换



内容替换,就是把我们采集到的内容中一些杂乱的内容替换掉,比如一些防采集的关键词,或者一些品牌名称等。



3.png



点击图片可以查看大图



内容替换左边框中数据需要替换的内容,如果我们的内容很长还带有一些html标签,可以使用中间的(*)通配符代替,右边框中替换成我们自己想要的内容。



2、html标签过滤



4.png



这个很好理解,就是过滤掉采集的内容中的一些html标签,一般来说,都会进行过滤,否则采集的内容中有很多冗余,并且对我们没有用的html标签;



3、智能提取



5.png



智能提取大多数是用在提取缩略图上,想要智能提取缩略图,在HTML标签过滤中,不得过滤掉img标签。



4、高级功能



6.png



高级功能中常用的有:自动摘要、自动分词、字符解码、添加前后缀、随机插入这几个。



7.png



8.png



注意:数据处理的顺序是从上往下处理的,这个地方要记牢,否则,有很多朋友自己处理着就发现没有内容了。智能提取的部分:主要是缩略图、自动摘要、自动分词(关键词),一般这几个都是单独复制内容采集标签,复制出来自动提取,做成单独的采集标签。



作者:淘小白QQ1290654348








店铺升级至该网址:http://www.gxdriver.com/,感谢各位老板的支持!


发表评论:
昵称

邮件地址 (选填)

个人主页 (选填)

内容