当前位置:主页 > 互联网知识 >

采集侠定向规则采集

发表日期:2019-04-21 10:25文章编辑:Smileby陌少羽浏览次数: 标签:采集,侠,定向,规则,、,设置,定向,采集,登录,

1、设置定向采集


1)、登录您网站后台,模块->采集侠->采集任务,如果您的网站还没有添加栏目,你需要先到织梦的栏目管理里先添加栏目,如果已经添加了栏目,你可能可以看到如下界面



2)、在弹出的页面里选择定向采集,如图所示



3)、点击添加采集规则,这就是添加定向采集规则的页面了,这里我们要详细说下


2、设置 目标页面编码

     打开您要采集的网页,点击鼠标右键,点击查看网站源码,搜索charset,查看charset后面紧跟的是utf-8还是gb2312,如图所示即为utf-8



3、设置 列表网址

     列表网址就是您要采集的网站的栏目列表地址
     如果只是单纯采集列表页的第一页,直接输入该列表URL就行,如我要采集站长之家的优化栏目的第一页,那列表URL就输入:http://www.chinaz.com/web/seo/,即可。采集第一页的内容的好处就是可以不用采集老旧的新闻,而且有新更新也可以及时采集到,如果需要采集该栏目的所有内容,那也可以通过设置通配符的方式,匹配所有列表URL规则。

     匹配URL规则的方法也很简单,你只需要查看列表分页的不同,加个通配符即可,如站长之家的优化栏目:

     第一页的URL是:http://www.chinaz.com/web/seo/1.shtml
     第二页的URL是:http://www.chinaz.com/web/seo/2.shtml
     第三页的URL是:http://www.chinaz.com/web/seo/3.shtml

     通过观察列表URL的变化,可以看出第一页就是1.shtml,第二页就是2.shtml,第三页就是3.shtml,变换的就是页码而已,列表页的URL通配符是 [开始页-结束页] ,假如你要采集栏目前二十页的,那么列表URL规则就是:http://www.chinaz.com/web/seo/[1-20].shtml,看到其中的区别了吧,就是在变换的部分加入通配符,从开始页到结束页即可。


4、设置 文章网址

     文章URL规则和列表URL规则设置差不多,也是通配变换的部分,只是通配符不一样而已,文章URL使用通配符 (*) 来匹配,有采集规则编写经验的用户可以很容易理解,通配符可以代替一个或多个真正的字符,通过下面例子更加直观的了解通配符的使用方法。

     例:

     比如我要采集站长之家优化栏目里面的文章,他们的文章URL是
     http://www.chinaz.com/web/2011/0926/211708.shtml
     http://www.chinaz.com/web/2011/0926/211705.shtml
     http://www.chinaz.com/web/2011/0926/211694.shtml
     通配后的URL就是:http://www.chinaz.com/web/(*)/(*)/(*).shtml

     也就是说数字部分是变换的部分,可以看得出他的URL结构是年/月日/文章ID的形式,年月日和文章ID是会变换的,所以就通配这三部分内容就行。

     我们可以输入列表URL规则和文章URL规则,然后点击测试,会看到下图的测试结果,也就是匹配成功了,已经列出成功匹配的列表URL和文章URL,测试的时候只显示前十条结果以供观察是否已经匹配成功。

5、设置 标题、作者、来源、内容、分页规则

     首先这个规则采集侠默认都是自动识别的,但是自动识别的效果有可能没有自己设置的好,也有可能有的网站采集侠识别不了,如果标题和内容采集侠识别不到那么就什么都采集不到了!所以这里建议是内容规则最好手工设置,而作者和来源规则可以不设置,也可以到采集侠的高级设置菜单里设置成固定的作者以及来源。
     标题、作者、来源、内容和分页规则的写法都是一样的,懂得其中一项的写法,其他几项都懂得了,所以这里就以内容规则来举例说明。

     采集侠是怎么根据你的规则找到文章内容的呢,其实就是你写个规则告诉它文章从哪里开始,从哪里结束,最后写成规则就是   开始的地方的代码[内容]结束的地方的代码

     比如我要采集站长之家优化栏目里面的文章,打开文章列表中其中一篇,
     如:
     http://www.chinaz.com/web/2015/0702/418785.shtml
     打开后,右键查看源码,通过查看源码找到文章处,你可以通过搜索文章中的句子去找文章所在的大概位置



最后我们把前后的代码做成规则,就是

<div class="article-detail-bd">[内容]</div>

最后点击测试,如果测试成功了点击保存即可采集

如没特殊注明,文章均为狐灵科技原创,转载请注明  http://www.hulingweb.cn/hulianwang/340.html
  • 更多 +狐灵业务单元

    营销型网站建设 品牌创意网站 企业官方网站 上市公司网站 B2C电子商务网站 大型门户网站 专题活动网站 定制化电子商务 产品商城网站 移动手机电商网站 微信会员电商

  • 更多 +我们的优势

  • 更多 +关于狐灵

    狐灵致力于互联网品牌建设与网络营销,专业领域包括网站建设、电子商务、移动互联网营销、系统平台开发, 与其他网站建设及系统开发公司不同,我们的整合解决方案结合了狐灵网络品牌建设经验和互联网整合营销的理念,并将策略和执行紧密结合,且不断评估并优化我们的方案,为客户提供一体化全方位的互联网品牌整合方案!

更多 +联系我们

服务热线:15523356218座机专线:023-68168040

业务 QQ传真:023-68168040

售后专线15082661954售后QQ:

渠道合作邮箱Foxl@hulingweb.cn

我们的认知

在我们的对手消耗大量的时间停留在碎片化的互联网设计或者程序实现的时候,我们已经开始把数字化品牌建设和网络传播进行了整合。只有通过整体的互联网品牌分析,帮助企业家们进行互联网品牌建设,并传播企业品牌,并围绕品牌树立品牌价值,提升企业与用户的互相交流,与用户品牌交互,让用户能找专业的方法去解决问题。传播品牌,激起消费者品牌意识,在这过程中创造价值,这是我们成功的秘诀,也是我们帮助用户成功的诀窍,更是成就一流品牌的一条直达线。

不能否认的是,建设网站,创造互联网品牌价值的过程,是一种在互联网上艺术的行为,但互联网跟涂鸦全然不同,企业的品牌价值并不体现在希望品牌成为某个这种艺术家的作品。互联网传播的对象是用户,用户拥有自己的文化体系,群落共性才是互联网传播根本,这种传播才是互联网创造价值的体现,这种价值的体现呈现多样。空洞的好看没有实质是网站建设的闹剧,网站如果不能激发品牌价值和网络营销和帮助用户,则是网站建设的悲哀,这样的网站没有灵魂!所以,网站建设运营,网络营销必须得得人心,有非常好的用户体验,能够解决问题和需求,能够为梦想者创造和传播品牌价值,最后创造价值,狐灵与你同行!


HI,Are you ready?

  • 公司名称*
  • 邮箱*
  • 姓名*电话*

您需要的服务*

现有网站改版
我需要做微信营销
建设全新的企业网站
要找长期合作公司,需要年度服务
我需要做购物商城
我需要做系统平台
我需要做营销型网站
我需要优化推广

您最关注的地方*

对功能要求比较高
对设计创意要求比较高
需要可以购物支付
搜索引擎排名

预算*

5千以下 1万以下 1-2万 2-3万 3-5万 5-10万 10万以上 大型项目需要招标
验证码 看不清?点击更换 看不清? 点击更换

售前售前
售后售后
留言微信
Top