WordPress自动采集插件:WP-CTspider(长腿蜘蛛)

作者 : 管理员 本文共5358个字,预计阅读时间需要14分钟 发布时间: 2022-08-10 共204人阅读

今天给大家推荐一款免费的WordPress自动采集插件:WP-CTspider,这款插件全自动采集几乎可采集任何网站,设置轻而易举,只需要设置定向采集网址,通过CSS选择器精准识别采集区域,包括(内容,摘要,TAG,缩略图,自定义字段等…)然后自动检测抓取网页内容,文章去重,更新发布,这个过程全自动完成,无需人工干预。WordPress自动采集插件:WP-CTspider(长腿蜘蛛) WordPress自动采集插件:WP-CTspider(长腿蜘蛛) WordPress自动采集插件:WP-CTspider(长腿蜘蛛)WordPress自动采集插件:WP-CTspider(长腿蜘蛛) WordPress自动采集插件:WP-CTspider(长腿蜘蛛) WordPress自动采集插件:WP-CTspider(长腿蜘蛛)

WP-CTspider支持WordPress全功能,完美支持WordPress各种功能、标签,摘要,特色图片,自定义栏目等。定时自动采集,只需要设置好每个任务,要多久执行一次任务,便可以定时执行采集任务。支持各种语言伪原创,支持百度翻译引擎(完全免费),共支持29种语言相互翻译,轻松获取原创文章,SEO,支持SEO全功能优化,支持内容过滤,甚至可以在文章任意位置添加上自定义内容,也可以自定义文章样式。附件下载,支持多种格式附件下载,包括自定义采集缩略图,并且可以选择图片添加水印。

下面介绍一下WP-CTspider超详细使用教程!

使用教程

新建项目 / 基本配置

接下来我们详细说下如何采集一个项目

我们使用新浪科技为示例:

首先基本配置:


  • 任务名称:新浪科技(PS:自定义即可)
  • 更新时间:默认60分钟(PS:当前任务60分钟自动执行一次)
  • 字符集:默认选项就可以(PS:如果出现乱码情况,请针对当前web网页字符集选择即可)
  • 随机IP:开启(PS:开启随机IP会在每次采集的时候自动更换IP,减少服务器IP被封的几率)
  • 多线程采集:开启 (PS:开启后可提高采集速度)
  • 多线程数量:默认10(PS:根据自己服务器配置酌情使用)
  •  

    WP-CTspider(长腿蜘蛛)基本设置 WP-CTspider(长腿蜘蛛)基本设置 WP-CTspider(长腿蜘蛛)基本设置WP-CTspider(长腿蜘蛛)基本设置 WP-CTspider(长腿蜘蛛)基本设置 WP-CTspider(长腿蜘蛛)基本设置

    列表设置

    • 列表URL: http://roll.tech.sina.com.cn/internet_all/index.shtml (PS:如需多个,可换行添加)
    • 列表区域选择器:.contList>ul>li (PS:【完全和CSS选择器用法一样】【可填,可不填】如果采集当前页面有多个相同列表DOM节点就要填写,确保采集精准度)用谷歌浏览器右键审查元素,可以看出当前列表数据都在.contList>ul>li下面

    WP-CTspider(长腿蜘蛛)示例 WP-CTspider(长腿蜘蛛)示例 WP-CTspider(长腿蜘蛛)示例WP-CTspider(长腿蜘蛛)示例 WP-CTspider(长腿蜘蛛)示例 WP-CTspider(长腿蜘蛛)示例

    • 列表缩略图:如果有图可以直接填写当前缩略图CSS选择器
    • 文章网址匹配:a (PS:由于上面区域选择器已经定位,我们可以直接填入a标签即可,如果区域选择器没有定位则设置:.contList li a 或者.contList a 具体根据你采集页面dom结构自己分析)
    • 添加来源网址到自定义字段:source_url(PS:【自定义】可开启或不开启,设置后会在每天文章添加一个自定义字段source_url并且会把当前采集到网址链接赋值给该字段用于前台调用显示)如: get_post_meta('source_url') 可调用该字段的值。

    点击列表测试可以查看当前项目列表配置情况

    WP-CTspider(长腿蜘蛛)列表测试 WP-CTspider(长腿蜘蛛)列表测试 WP-CTspider(长腿蜘蛛)列表测试WP-CTspider(长腿蜘蛛)列表测试 WP-CTspider(长腿蜘蛛)列表测试 WP-CTspider(长腿蜘蛛)列表测试

    文章设置

    标题匹配规则:h1

    文章内容设置:#article_content

    WP-CTspider(长腿蜘蛛)文章 WP-CTspider(长腿蜘蛛)文章 WP-CTspider(长腿蜘蛛)文章WP-CTspider(长腿蜘蛛)文章 WP-CTspider(长腿蜘蛛)文章 WP-CTspider(长腿蜘蛛)文章

    可以看到标题在h1标签下,也可使用.main-title来获取标题

    正文内容看上去有好多 class和id 如果有id属性尽量采用id,毕竟id是唯一性,定位精准。

    我们还可以增加规则来采集TAG标签

    长腿蜘蛛-CTspider 提供了6总规则添加采集,并且可以自定义字段规则(PS:自定义字段规则可以添加多个)

    WP-CTspider(长腿蜘蛛)文章规则 WP-CTspider(长腿蜘蛛)文章规则 WP-CTspider(长腿蜘蛛)文章规则WP-CTspider(长腿蜘蛛)文章规则 WP-CTspider(长腿蜘蛛)文章规则 WP-CTspider(长腿蜘蛛)文章规则

    点击采集测试

    采集结果完美呈现(原文:标题:TAG)正确显示

    但是我们发现结果中出现了a链接和一些多于的css属性id属性还有span标签

    WP-CTspider(长腿蜘蛛)采集测试 WP-CTspider(长腿蜘蛛)采集测试 WP-CTspider(长腿蜘蛛)采集测试WP-CTspider(长腿蜘蛛)采集测试 WP-CTspider(长腿蜘蛛)采集测试 WP-CTspider(长腿蜘蛛)采集测试

    我们可以利用长腿蜘蛛-CTspider强大的内容过滤模块进行数据清洗工作

    内容过滤

    
    
  • 首先删除数据中所有a链接但不删除a标签内容
  • 删除数据中span标签并且也不删除内容
  • 删除数据中无用的class属性和id属性
  •  

    具体设置如下图:

    WP-CTspider(长腿蜘蛛)采集测试 WP-CTspider(长腿蜘蛛)采集测试 WP-CTspider(长腿蜘蛛)采集测试WP-CTspider(长腿蜘蛛)采集测试 WP-CTspider(长腿蜘蛛)采集测试 WP-CTspider(长腿蜘蛛)采集测试

    最后在进行采集测试(得到纯净的数据)

    WP-CTspider(长腿蜘蛛)采集测试2 WP-CTspider(长腿蜘蛛)采集测试2 WP-CTspider(长腿蜘蛛)采集测试2WP-CTspider(长腿蜘蛛)采集测试2 WP-CTspider(长腿蜘蛛)采集测试2 WP-CTspider(长腿蜘蛛)采集测试2

    点击采集后显示没有任何数据只有两种可能

    
    
  • 采集规则没有设置好。
  • 如果确定采集规则没问题,请查看当前采集的网址是否是Ajax动态渲染加载(PS:目前长腿蜘蛛-CTspider 不支持动态渲染加载采集
  •  

    如何授权

    WP-CTspider(长腿蜘蛛)授权 WP-CTspider(长腿蜘蛛)授权 WP-CTspider(长腿蜘蛛)授权WP-CTspider(长腿蜘蛛)授权 WP-CTspider(长腿蜘蛛)授权 WP-CTspider(长腿蜘蛛)授权

    登录长腿蜘蛛-CTspider官网注册账号(PS:注册账号需要邮箱验证激活码,请认真填写邮箱账号)。

    
    
  • 点击用户中心->添加授权域名(PS:目前每位用户可以授权3个域名)。
  • 得到授权码后,点击CTspider插件->系统配置->授权码配置->填入授权码->保存配置->验证授权
  •  

    下载信息

    [btn type=”info” url=”https://www.ctspider.com/?action=ctdownload&id=9″][/btn]

    [btn type=”success” url=”https://www.ctspider.com”][/btn]

    总结

    这款WP-CTspider自动采集插件使用教程还是非常详细的,可以说是傻瓜式教学,并且最重要的是它使用起来完全是免费的,有需要的不妨试试,但是现在搜索引擎对采集站打击力度也很大,做网站最好要有自己的原创内容。

    1. 本站所提供的源码模板(主题/插件)等资源仅供学习交流,若使用商业用途,请购买正版授权,否则产生的一切后果将由下载用户自行承担,有部分资源为网上收集或仿制而来,若模板侵犯了您的合法权益,请来信通知我们(Email: 1847046260@qq.com),我们会及时删除,给您带来的不便,我们深表歉意!
    2. 分享目的仅供大家学习和交流,请不要用于商业用途!
    3. 如果你也有好源码或者教程,可以到用户中心发布投稿,分享有佣金分成!
    4. 本站提供的源码、模板、插件等等其他资源,都不包含技术服务 请大家谅解!
    5. 如有链接无法下载、失效或广告,请联系站长,可领回失去的金币,并额外有奖!
    6. 如遇到加密压缩包,默认解压密码为"www.9m8m.com",如遇到无法解压的请联系管理员!
    7. 本站部分文章、资源来自互联网,版权归原作者及网站所有,如果侵犯了您的权利,请及时联系我站删除。免责声明
    精品源码网 » WordPress自动采集插件:WP-CTspider(长腿蜘蛛)

    常见问题FAQ

    免费下载或者VIP会员专享资源能否直接商用?
    本站所有资源版权均属于原作者所有,这里所提供资源(除商业源码分类)均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
    源码会提供后续更新服务吗?
    只要是源码有了新的版本发布,那么我们就会发布出来,凡是vip会员都可享受免费下载更新的权限!
    所有源码是否100%完整可运营?
    因为时间、精力、条件和源码的复杂程度等诸多因素的限制,导致我们无法去对每一套源码都去做一个全面且深入的测试,所以我们无法保证站内所发布的源码全部都100%完整可运营,所以关于此问题就无法给大家做出任何承诺。
    本站源码是否支持退款?
    本站属于自动发货下载,源码是虚拟产品,易复制与传播,一旦购买是不支持退款的,感谢理解!

    发表评论

    也想出现在这里? 联系我们
    Copyright © 2022 深圳市星速云网络科技有限公司版权所有 Theme. All rights reserved 粤ICP备19063419号-4
    开通VIP 享更多特权,建议使用QQ登录