互联网知识

精准传达 • 价值共享

洞悉互联网前沿资讯,探寻网站营销规律

查看其它板块

采集侠定向规则采集

作者:Smileby陌少羽 | 2019-04-21 10:25 |点击:

1、设置定向采集


1)、登录您网站后台,模块->采集侠->采集任务,如果您的网站还没有添加栏目,你需要先到织梦的栏目管理里先添加栏目,如果已经添加了栏目,你可能可以看到如下界面



2)、在弹出的页面里选择定向采集,如图所示



3)、点击添加采集规则,这就是添加定向采集规则的页面了,这里我们要详细说下


2、设置 目标页面编码

     打开您要采集的网页,点击鼠标右键,点击查看网站源码,搜索charset,查看charset后面紧跟的是utf-8还是gb2312,如图所示即为utf-8



3、设置 列表网址

     列表网址就是您要采集的网站的栏目列表地址
     如果只是单纯采集列表页的第一页,直接输入该列表URL就行,如我要采集站长之家的优化栏目的第一页,那列表URL就输入:http://www.chinaz.com/web/seo/,即可。采集第一页的内容的好处就是可以不用采集老旧的新闻,而且有新更新也可以及时采集到,如果需要采集该栏目的所有内容,那也可以通过设置通配符的方式,匹配所有列表URL规则。

     匹配URL规则的方法也很简单,你只需要查看列表分页的不同,加个通配符即可,如站长之家的优化栏目:

     第一页的URL是:http://www.chinaz.com/web/seo/1.shtml
     第二页的URL是:http://www.chinaz.com/web/seo/2.shtml
     第三页的URL是:http://www.chinaz.com/web/seo/3.shtml

     通过观察列表URL的变化,可以看出第一页就是1.shtml,第二页就是2.shtml,第三页就是3.shtml,变换的就是页码而已,列表页的URL通配符是 [开始页-结束页] ,假如你要采集栏目前二十页的,那么列表URL规则就是:http://www.chinaz.com/web/seo/[1-20].shtml,看到其中的区别了吧,就是在变换的部分加入通配符,从开始页到结束页即可。


4、设置 文章网址

     文章URL规则和列表URL规则设置差不多,也是通配变换的部分,只是通配符不一样而已,文章URL使用通配符 (*) 来匹配,有采集规则编写经验的用户可以很容易理解,通配符可以代替一个或多个真正的字符,通过下面例子更加直观的了解通配符的使用方法。

     例:

     比如我要采集站长之家优化栏目里面的文章,他们的文章URL是
     http://www.chinaz.com/web/2011/0926/211708.shtml
     http://www.chinaz.com/web/2011/0926/211705.shtml
     http://www.chinaz.com/web/2011/0926/211694.shtml
     通配后的URL就是:http://www.chinaz.com/web/(*)/(*)/(*).shtml

     也就是说数字部分是变换的部分,可以看得出他的URL结构是年/月日/文章ID的形式,年月日和文章ID是会变换的,所以就通配这三部分内容就行。

     我们可以输入列表URL规则和文章URL规则,然后点击测试,会看到下图的测试结果,也就是匹配成功了,已经列出成功匹配的列表URL和文章URL,测试的时候只显示前十条结果以供观察是否已经匹配成功。

5、设置 标题、作者、来源、内容、分页规则

     首先这个规则采集侠默认都是自动识别的,但是自动识别的效果有可能没有自己设置的好,也有可能有的网站采集侠识别不了,如果标题和内容采集侠识别不到那么就什么都采集不到了!所以这里建议是内容规则最好手工设置,而作者和来源规则可以不设置,也可以到采集侠的高级设置菜单里设置成固定的作者以及来源。
     标题、作者、来源、内容和分页规则的写法都是一样的,懂得其中一项的写法,其他几项都懂得了,所以这里就以内容规则来举例说明。

     采集侠是怎么根据你的规则找到文章内容的呢,其实就是你写个规则告诉它文章从哪里开始,从哪里结束,最后写成规则就是   开始的地方的代码[内容]结束的地方的代码

     比如我要采集站长之家优化栏目里面的文章,打开文章列表中其中一篇,
     如:
     http://www.chinaz.com/web/2015/0702/418785.shtml
     打开后,右键查看源码,通过查看源码找到文章处,你可以通过搜索文章中的句子去找文章所在的大概位置



最后我们把前后的代码做成规则,就是

<div class="article-detail-bd">[内容]</div>

最后点击测试,如果测试成功了点击保存即可采集

如没特殊注明,文章均为狐灵科技原创,转载请注明  https://www.hulingweb.cn/hulianwang/340.html
多一份免费策划方案,总有益处。

请直接添加技术总监微信联系咨询

网站设计 品牌营销

多一份参考,总有益处

联系狐灵科技,免费获得专属《策划方案》及报价

咨询相关问题或预约面谈,可以通过以下方式与我们联系

业务热线:023-68168040 / 大客户专线:15523356218