六年专注于网络推广、网络营销研究

  • 首页
  • SEO工具
  • 火车头小说采集方法要灵活,这几个问题你也可能会遇到。

作者:淘小白10-14 14:52分类: SEO工具 标签: 火车头

昨天帮助一客户写了一个火车头的采集规则,采集的是某个小说站,今天来写下在这个过程中遇到的一些问题吧!希望能够帮助到大家。先上图:

1602658292(1).jpg

1、http请求设置


刚开始面对的问题就是,写好列表获取规则之后,获取不到内容页的网址,以我的经验,能浏览到源码,但是采集不到内容网址,很大情况是http请求的头部信息没有写全,把cookies ua 还有其他几个写好之后,问题解决了。


2、PC防采集


在小说章节页面源码中,我们可以看到章节信息,我也没有仔细看,大概的浏览了一下应该没有防采集,测试都能出数据,就没有检查就发给客户了,后面客户和我反馈说只能采集一部分,章节不完整。


后面,又仔细检查了一下,发现果然不完整,就开始检查内页,发现内页只给出了一部分章节,后半段没有给,站长明显做了防采集,抓包也没有发现完整 怎数据,么整呢?


3、移动站


没有办法看下移动站能不能采集,就检查了一下移动站,移动站用浏览器打开之后挺迷惑人,内容中做了分页,但是请求第一页源码中都存在数据,所以,修改规则,直接跳转到移动站获取内容。


问题解决!


4、其他


在采集小说的时候,很多站长会做防采集,即便人家也是采集来的,也是辛辛苦苦采集来的,所以,也会做一些防采集的工作,在写的时候,大家可灵活一些。

需要采集小说的朋友联系我V吧~

温馨提示如有转载或引用以上内容之必要,敬请将本文链接作为出处标注,谢谢合作!

已有 0/26 人参与

发表评论:



微信扫一扫,加我好友