六年专注于网络推广、网络营销研究

作者:淘小白11-29 16:59分类: SEO工具 标签: 火车头

火车头可以轻松的采集小说,淘小白之前写过很多单本,也写过很多批量的,各有优缺点:

批量采集:最大的优点就是省时省心省力,缺点是采集周期长;适合新站填充数据,不需要考虑重复的问题;

单本采集:更加灵活,可以选择自己需要的进行采集的小说,然后进行采集。

今天淘小白给大家制作一个小说批量采集的教程,这里给大家做思路介绍,具体站点不做暴露,适合对火车头了解的朋友。

整体思路:1、初始地址为某个分类排行页面,2、获取小说章节目录网址;3、获取小说第一章;4、制作分页采集规则,通过小说的上一章下一章做采集;5、获取小说内容;6、小说发布;7、软件分割器分割按章节分割。

下面具体给大家来写一下:


1、编辑初始地址+1级网址

1.png

点击图片可以查看大图

初始地址添加小说站点的排行或者分类页面的列表网址,可以做批量,也可以不做批量,然后采用【高级模式】添加1级采集网址,这里采集到的是小说目录页面的网址。我在这里还通过小说列表的标签,把小说的名字做了采集标签,因为发布的时候需要用到这个书名,所以,会做列表页的标签采集。


2、编写2级网址规则

2.png

点击图片可以查看大图

这里获取的是目录页第一章的网址,然后再顺着【上一章下一章】发布的时候才能不乱;要不然后面发布的时候会存在问题。

测试采集如下样式:

3.png

点击图片可以查看大图


3、制作分页采集规则

4.png

点击图片可查看大图

这里需要注意,编写分页的时候,选用上下页模式,然后通过源码中查找分页的位置,然后进行编写。编写完之后需要注意,在其他设置的地方,【重点】分页改成0,火车头默认应该是10


4、内容采集规则编写

5.png

点击图片可以查看大图

编写采集规则时都是通过源码中采集的,一般小说站点的章节源代码比较干净,但是防采集的网址可能会有很多。在数据处理中,我们需要在章节前面加入###分隔符,这样分割器可以识别,如果我们的小说站点可以整部导入,也可以自己进行修改章节识别符号。


5、小说发布设置

6.png

点击图片可以查看大图

保存格式需要注意事项都写在了截图上面,自己看下。


6、整部小说分割


整部小说分割,淘小白这里有专门的软件,不需要将整本小说分割的,可以整部导入,这个就灵活了,自己根据自己的需求来做就好了。

【重点又来了】有的小说程序导入小说时,需要识别1、2、3、4、5、6...这样的章节序号,很多小说的章节都是文字的形式,比如“第一千〇九十⑤章”,这种的序号很乱,火车头替换也很难,采集下来修改,用于上传也是比较繁琐,用小说分割器可以轻松的解决,还是比较好用的。分割生成的样式:1.txt\2.txt...依次排列下去,所以,我在采集的时候,2级网址一定要是第一章。


【注意】该采集教程是专门写给有一定基础的朋友的哈,对于火车头都不入门的朋友,会存在看不懂的地方,有些地方需要看源代码,我这里都没有截图,那样篇幅会很长,如果是火车头小白,可以购买本人原创的基础教程进行学习《火车头基础使用视频教程--24小时自助下单购买》


完结!

======20200420更新=============

火车头小说采集视频教程,一手资源,原创视频,购买地址,点这里


作者:淘小白 

网址:淘金网

QQ:1290654348

温馨提示如有转载或引用以上内容之必要,敬请将本文链接作为出处标注,谢谢合作!

已有 0/1894 人参与

发表评论:



微信扫一扫,加我好友