Skip to main content
 仿站网 » cms插件 » Wordpress插件

WordPress开源免费采集插件 WP-JPost

2019年01月10日69170百度已收录

 之前我们在网上看到有wp-autopost插件,是自动采集的。但是需要付费。笔者自己购买使用过,后期官网经常打不开,售后服务不到位,今天仿站网为大家介绍一款开源的wordpress采集插件 WP-JPost,使用该插件需要一定的html、css 基础.知识,,在wordpress官方插件中心可以获取到该插件,也可以在自己的wordpress网站后台,安装插件处获取。

WP-JPost免费采集插件的wordpress官方下载地址:https://cn.wordpress.org/plugins/wp-jpost/

WP-JPost免费采集插件官方网址:https://www.jiloc.com/

WP-JPost免费采集插件截图:

QQ截图20190110175702.jpg

wordpress采集插件 WP-JPost主要功能如下:

1、定向采集目标网站内容,并直接发布。
2、可以设置对应入库的分类。
3、可以自定义文章的标签。
4、可以自定义替换标题、文章内容。
5、自动另存为图片到本地。
6、自动删除内容中的所有链接。
7、加入百度翻译,可以将内容翻译成英文。
8、脚本定时自动增量功能。

如何安装WordPress采集插件WP-JPost?


  方法一:在后台插件中直接搜索“wp-jpost”


  

 

 

 

 


 


  

 

 

 

 



 


  方法二:在WordPress插件官网下载,然后上传安装


WordPress免费采集插件 WP-JPost如何添加采集任务?


  任务名


  命名请使用英文字母数字组合.


  例:douban。


  抓取目标网站域名(网址以/结束)


  这里填写目标网站首页的地址,以/结束。


  例:https://www.douban.com


  抓取目标网站列表页


  列表页一般都是二级页面,是栏目的具体展示页,一般是用页内跳转的链接。


  例如:https://www.douban.com/group/meituikong/


  入库目标分类ID


  WordPress 后台 — 文章 — 分类目录 — 编译你想入库到的分类 — 查看浏览器地址栏的地址。


  例:/wp-admin/term.php?taxonomy=category&tag_ID=38…


  这里的tag_ID=38,这个38就是我们需要填写的值。


  标签


  WordPress 入库时,写入文章的标签值。多个标签请使用,分割(英文状态的逗号分隔)


  例:WordPress,LaoJi,wp-jpost。


  目标网站a链接元素


  列表页中到二级目录的链接地址,同jQuery选择器方法。


  分页格式


  列表页中第二页区别列表页的地方。例:


  列表页地址:https://www.douban.com/group/meituikong/


  翻页后变成:https://www.douban.com/group/meituikong/discussion?start=8850


  那么这里就填写:discussion?start={page}


  这里的 {page} 就是翻页变化的地方。


  分页最大值


  这里填写翻页后最后的page值。例:


  http://147hub.com/page/2052


  这里翻页的最大值,即填写:2052


  获取单页标题、目标单页获取元素 :title


  内容页中标题、内容的标签值。同jQuery选择器方法。下面我们具体得讲述一下怎么选择元素。首先我们需要使用chrome、firefox之类的浏览器。这些浏览器都具有调试等功能。我们这里以Firefox为例。


  首先分析代码,以下元素标签可以是div , h3 ,title ,span , p 等。


  例:<元素标签 class=”classname”>…,那么我们应该则填入:元素标签.classname。


  例:<元素标签 id=”classname”>…,那么我们应该则填入:元素标签#classname。


  学习更多CSS选择器可以参考:http://www.w3schools.com/cssref/css_selectors.asp


  步骤:


  1、网页空白处右击 — 查看元素 。 下面会弹出一个调试器出来。


  

 

 

 

 


 


  内容搜索值 、内容替换值(可以批量多个替换)


  比如标题正文中带有一些原来的字符串,我想替换成我的,或者不要了。


  注意:这里如想替换成一样的值,可以直接写一个。如每个替换成不同的则需要对应填。例:


  搜索值:- 摔角资料, – 赛事新闻 – 摔角网, – 赛事战报, – 摔角网


  替换值:


  搜索值:搜索1,搜索2,搜索3


  替换值:替换1,替换2,替换3


  注意这里要一一对应。例如搜索2去要替换成空则替换值也需要留空(替换1,,替换2),否则就不能对应替换了。


  curl设置


  我们在采集时,会遇到一些网站带有https,或者做了防采集。这时我们就需要curl来帮忙。具体方法请移步:WordPress 采集插件 WP-JPost 在Windows/Linux 系统环境下安装curl 采集 带ssl的https网站 图文教程


WordPress 采集插件 wp-jpost 问答总结

  [title]使用了Auto Save Image插件后目标站的图片还是抓不到?[/title]


  我们需要对html代码进行分析了,查看一下目标站的图片路径是不是相对路径(即没有http:// 打头的路径),如果是相对路径的话我们这里可以使用搜索替换文字功能,将图片的前缀替换成他的绝对路径即可。


  [title]宝塔面板填写curl地址后出现错误[/title]


  宝塔面板 Warning: is_executable(): open_basedir


  [title]0.0.5更新后为什么会出现404 错误?[/title]


  由于之前的版本我们的采集页面返回的代码是404,所以我们0.1开始做了更新,将http code 从 404 变成 200.


  可以将插件目录中wp-jpost.php里的 260、261行前的注释去掉,变成:


  function jpost_plugin_rules() {


  add_rewrite_rule('^jpost/?([^/]*)', 'index.php?jpost=jpost&$matches[1]', 'top');


  add_rewrite_endpoint( 'jpost', EP_PERMALINK );


  // 重置规则请删除一下2行的注释


  global $wp_rewrite;


  $wp_rewrite->flush_rules();


  }


  运行一次插件任务调试,然后再回去到原来的版本。


  这样做的目的是为了重置rewrite规则并保存到数据库。


  [title]使用宝塔面板后,http://laoji.org/jpost/xxx 出现404 错误?[/title]


  1、检查网站是否启用了WordPress的rewrite规则,如果没有,请启用。【请注意:暂时无法兼容WordPress固定链接的 朴素 格式】


  2、打开面板,对应的网站网站,设置 — 配置文件,将404的错误注释或者删除掉(从web服务移交给WordPress) :


  Nginx:


  error_page 404 /404.html;


  Apache:


  errorDocument 404 /404.html


  [title]如何保存采集中的图片以及自动去除文中的所有链接?[/title]


  wp-jpost 插件兼容了 Auto_Save_Image 插件,并进行了修改,使它来自动保存修改文中的图片及去除链接。


  [title]刚配置完任务,点击【调试】【采集】按钮出现空白页面?[/title]


  这种情况可能是插件冲突导致的,建议您禁用其他所有插件后再进行调试、采集。

阅读延展
评论列表暂无评论
发表评论取消回复
微信