织梦采集侠定向采集设置方法

     定向采集是织梦采集侠V2.5版亮点功能之一,简单配置采集规则即可精确采集到文章标题、作者、来源、内容和分页,通过这篇教程大家可以懂得如何配置这些采集规则,从而简单方便的采集内容,熟悉该方法后,您将会抛弃传统复杂的采集方式,采用织梦采集侠的定向采集功能进行采集。

     和传统的采集方式相比,织梦采集侠的定向采集功能更为简单,不需要编写复杂的采集规则,可供设置的地方就那么几项,简单配置一下即可采集内容。

     定向采集规则设置:

     1)目标页面编码
     目标页面编码的设置最为简单,您只需要查看一下您要采集的网站页面所采用的是什么编码即可,查看方法很简单,打开您要采集的网页,点击鼠标右键,点击查看网站源码,搜索charset,查看charset后面紧跟的是utf-8还是gb2312,然后在采集规则设置目标页面编码设置对应的编码即可。

     2)列表URL
     列表URL是您要采集网站的列表

     列表URL一般是你需要采集的文章的列表页,因为只有列表页才有众多被采集文章的URL,通过列表URL规则和文章URL规则,可以匹配出该列表页符合文章URL规则的文章页URL来。

     如果只是单纯采集列表页的第一页,直接输入该列表URL就行,如我要采集站长之家的优化栏目的第一页,那列表URL就输入:http://www.chinaz.com/web/seo/,即可。采集第一页的内容的好处就是可以不用采集老旧的新闻,而且有新更新也可以及时采集到,如果需要采集该栏目的所有内容,那也可以通过设置通配符的方式,匹配所有列表URL规则。

     匹配URL规则的方法也很简单,你只需要查看列表分页的不同,加个通配符即可,如站长之家的优化栏目:http://www.chinaz.com/web/seo/,这是首页的,

     第一页的URL是:http://www.chinaz.com/web/seo/1.shtml
     第二页的URL是:http://www.chinaz.com/web/seo/2.shtml
     第三页的URL是:http://www.chinaz.com/web/seo/3.shtml

     通过观察列表URL的变化,可以看出第一页就是1.shtml,第二页就是2.shtml,第三页就是3.shtml,变换的就是页码而已,列表页的URL通配符是 [开始页-结束页] ,假如你要采集栏目前二十页的,那么列表URL规则就是:http://www.chinaz.com/web/seo/[1-20].shtml,看到其中的区别了吧,就是在变换的部分加入通配符,从开始页到结束页即可。

     3)文章URL
     文章URL规则和列表URL规则设置差不多,也是通配变换的部分,只是通配符不一样而已,文章URL使用通配符 (*) 来匹配,有采集规则编写经验的用户可以很容易理解,通配符可以代替一个或多个真正的字符,通过下面例子更加直观的了解通配符的使用方法。

     例:

     比如我要采集站长之家优化栏目里面的文章,他们的文章URL是
     http://www.chinaz.com/web/2011/0926/211708.shtml
     http://www.chinaz.com/web/2011/0926/211705.shtml
     http://www.chinaz.com/web/2011/0926/211694.shtml
     通配后的URL就是:http://www.chinaz.com/web/(*)/(*)/(*).shtml

     也就是说数字部分是变换的部分,可以看得出他的URL结构是年/月日/文章ID的形式,年月日和文章ID是会变换的,所以就通配这三部分内容就行。

     我们可以输入列表URL规则和文章URL规则,然后点击测试,会看到下图的测试结果,也就是匹配成功了,已经列出成功匹配的列表URL和文章URL,测试的时候只显示前十条结果以供观察是否已经匹配成功。

     4)标题规则、作者规则、来源规则、内容规则和分页规则的写法
     标题、作者、来源、内容和分页规则的写法都是一样的,懂得其中一项的写法,其他几项都懂得了,我现在就一一举例如何设置,有编写过传统采集规则的用户,对插件的规则写法会很容易上手,新用户也是很容易理解的。

     [规则说明]:”起始无重复HTML[内容]结尾无重复HTML”,简单的说,右键查看文章源码,标题内容用 [内容] 来代替,然后就是紧接着标题内容左右两边的代码,下面是举例说明,用户可以更直观的了解。

     比如我要采集站长之家优化栏目里面的文章,打开文章列表中其中一篇,

     如:
     SEO关键字策略规划技巧心得分享
     http://www.chinaz.com/web/2011/0926/211708.shtml

     标题规则
     打开后,右键查看源码,通过查看源码,我们可以看到标题“SEO关键字策略规划技巧心得分享”出现的地方有2两处,

1
<title>SEO关键字策略规划技巧心得分享 - 站长之家</title>

     和

1
<h1 class="article-heading">SEO关键字策略规划技巧心得分享</h1>

     根据这两段代码,我们可以写出标题规则为

1
<title>[内容] - 站长之家</title>

     和

1
<h1 class="article-heading">[内容]</h1>

     这样的写法就符合插件的规则要求,同[内容]代替要采集的部分,只取其中一个规则即可。

     作者规则的写法和标题写法一致,只要找出作者所在位置,和左右两边的代码就行,用[内容]代替作者,该篇文章中没有显示文章作者,所以在此就不演示了。

     来源规则
     浏览网页我们可以看到该篇文章的来源是cgt88.com,同样是查看文章源码,搜索查看“cgt88.com”所在位置,我们可以看到

1
<span class="article-source">来源: cgt88.com</span>

     这段代码中包含了来源,我们采用同样的方法用[内容]对要采集的“来源”进行替换,来源规则则是:

1
<span class="article-source">来源: [内容]</span>

     内容规则
     内容规则和其他规则的写法一样,只是内容过多,不方便搜索查找,得自己浏览源码找到内容部分,内容部分占的位置也是比较多的,查找起来也是很容易的。

     从上两张图中我们可以找出文章开头是“网络上谈SEO的文章是漫天飞舞”,结尾是“转载请提供出处。不胜感谢。”,包含文章正文的html分别是

1
招分销商</p>

     和

1
</div>

     只要取一小部分不同的就行,内容规则则是:

1
招分销商</p>[内容]</div>

     分页规则
     “SEO关键字策略规划技巧心得分享”该篇文章没有分页,我就取“电子商务关键数字优化(线上部分,上)(http://www.chinaz.com/web/2011/0926/211681.shtml)”这篇文章给大家做演示。

     通过查看源码,我们找到分页部分的那段代码,如下图:

     分页规则的写法则和其他规则的写法也是一样的,将[内容]替换带有分页URL的地方就行,分页规则是:

1
<div class="pagebreak">[内容]</div>

     写到这里,我想大家也懂得如何设置采集规则了,是不是很简单?插件提供测试功能,在让大家测试规则是否有效,如下图般设置好,然后点击测试按钮。

     如果不需要采集作者和来源信息,那只需要设置标题、内容和分页规则即可。
     将会看到测试结果如下图:

     可以看出各项内容都可以精确采集了,但在上图中却没有显示分页链接,其实这个并不是规则编写错误的,而是测试的第一篇文章中没有分页,所以不显示分页链接,不过大家可以单独测试一下分页规则是有效,就是列表URL和文章URL不进行通配,直接填入列表URL和文章URL,然后设置好分页规则,点击测试即可看到分页链接,如下图:

     如果不写采集规则,全部设置自动的话,标题和内容是可以采集到的,作者、来源、和分页未必可以很好的采集到,只有符合插件自动规则的才行。正文部分依靠插件的正文提取算法进行提取,如果网页排版方式不够规范的话,可能会提取到有多余,或者提取少了的现象,如果想精确采集,建议还是写上采集规则。

     建议如果不想采集过旧的文章,可以不需要匹配列表URL,就采集第一页就行,商业版用户可以设置好定时自动采集的时间,该栏目如有新内容更新,就会在您设置的采集时间段内采集回来,也可以设置24小时监控采集,时刻和目标站点内容保持一致,我们的演示站点http://www.caijixia.com/zhanzhangzhijia/ ,也是监控采集站长网的内容,无需人工打理,每天定时定量采集更新。

     【案例】利用织梦采集侠三个月打造多关键词排名首页,文章内容均是采集而来
     【案例】利用织梦采集侠建站群为主站带来高质量流量
     利用织梦采集侠的RSS采集功能,采集最新指定关键词新闻

织梦采集侠定向采集设置方法》上有68条评论

发表评论