前几天给客户写了一个采集知网信息的规则,采集的主要信息是:标题、摘要、分类、关键词,没有其他要求。简单描述一下,采集过程
1、1级网址获取是post获取,获取到的一级网址可以采集到关键词。
2、在1级网址的列表页获取标题和摘要内容
3、关键词在1级网址中获取
4、在一级网址中抓取“分类”参数的网址,也就是添加多页。
5、多页中获取关键词数据
以下数据是今天测试的数据:
简单的给大家描述一下,有需要用到的朋友联系我,重要提示:不免费分享哦
发表评论: