WebMagic,WebMagic jfinal - 开发者博客

WebMagic

摘要：

WebMagic是Java平台上的一个开源爬虫框架。它的设计参考了Scrapy，它的实现参考了HttpClient和Jsoup。PageProcessor负责解析网页和链接发现，使用Jsoup和Xsoup。管道负责结果数据的持久性。快速开始依赖于ext｛versions=[“web_magic”：‘0.7.3’]｝依赖关系的引入｛//有一个您自己的项目compileprojectcompile的日志实现｛excludegroup:'org.slf4j'，module:'slf4j-log4j12'//删除默认日志实现｝compile｛excincludegroup:'org.slf4j'，module:'slf4j-log4j2'｝｝快速开始爬网https://github.com/code4craft/页面上可以找到的所有Github仓库信息。参数如下：任务｛“exitWhenComplete”：true，“pageCount”：0，//页面“scheduler”：｛“duplicateRemover”：{｝｝，“site”：｛“acceptStatCode”：[200]，“allCookies”：{}，“cookies”：｛｝，”cycleRetryTimes“：0，”disableCookieManagement“：false，”domain“：”github.com“，”headers“：｛”：method“：GET”，”origin“：”https://github.com“}，”retrySleepTime“：1000，”retlyTimes“：3，”sleepTime“：100，”timeOut“：10000，”useGzip“：true｝，”spawnUrl“：true，”startTime“：1544165065094，”status“：”Running“，”threadAlive“：1，”uUID“：”github“。Com“｝ResultItems｛”all“：｛//自定义字段位于此处“a_key”：“a_value”｝，“request”：｛”binaryContent“：false，“cookies”：｛｛｝，”headers“：｛｝”，“priority”：0，”url“：”https://github.com/code4craft?为了进行临时调整，请修改HttpClientGenerator中的buildSSLConnectionSocketFactory方法，并返回newSSLConnectSocketFactory以重写自己实现的HttpClientDownloader并将其设置为Spider。

WebMagic 是干嘛的？

WebMagic 是一个 Java 平台上的开源爬虫框架，其设计参考了 Scrapy，实现则参考了 HttpClient 和 Jsoup。其由四大组件组成：

Downloader，负责下载网页，使用 HttpClient。
PageProcessor，负责解析网页和链接发现，使用 Jsoup 和 Xsoup。
Scheduler，负责管理待抓取的 URL 和去重。
Pipeline，负责结果数据的持久化。

快速开始

（1）依赖引入

ext {
  versions = [
    "web_magic": '0.7.3'
  ]
}

dependencies {
  // 这里有自己项目的日志实现
  compile project(':base')

  compile("us.codecraft:webmagic-core:${versions.web_magic}") {
    exclude group: 'org.slf4j', module: 'slf4j-log4j12' // 移除默认的日志实现
  }
  compile("us.codecraft:webmagic-extension:${versions.web_magic}") {
    exclude group: 'org.slf4j', module: 'slf4j-log4j12'
  }
}

（2）快速开始

爬取 https://github.com/code4craft/ 页面上可以发现的所有 Github 仓库信息。


public class GithubRepoPageProcessor implements PageProcessor {

  private Site site = Site.me().setRetryTimes(3).setSleepTime(200).setTimeOut(10000);

  @Override
  public void process(Page page) {
    String regex = "(https://github\.com/code4craft/([\w-_]+)/)";
    page.addTargetRequests(page.getHtml()
                               .links()
                               .regex(regex)
                               .all());
    if(!Pattern.matches(regex,page.getUrl().get())){
      //skip this page
      page.setSkip(true);
    }
    page.putField("author", page.getUrl().regex("https://github\.com/(\w+)/.*").toString());
    page.putField("name",
                  page.getHtml()
                      .xpath("//meta[@property='og:title']/@content")
                      .toString());
    if (page.getResultItems().get("name") == null) {
      page.setSkip(true);
    }
//    page.putField("readme", page.getHtml().xpath("//div[@id='readme']/tidyText()"));
  }

  @Override
  public Site getSite() {
    return site;
  }

  public static void main(String[] args) {
    Spider.create(new GithubRepoPageProcessor())
          .addUrl("https://github.com/code4craft/")
          .thread(5)
          .run();
  }
}

更进一步

Pipeline 接口参数分析

Pipeline 接口会在每个 Page 解析完成之后回调一次。其中的参数如下：

（1）Task

{
    "exitWhenComplete": true,
    "pageCount": 0, // 抓取的第几页
    "scheduler": {
        "duplicateRemover": {}
    },
    "site": {
        "acceptStatCode": [
            200
        ],
        "allCookies": {},
        "cookies": {},
        "cycleRetryTimes": 0,
        "disableCookieManagement": false,
        "domain": "github.com",
        "headers": {
            ":method": "GET",
            "origin": "https://github.com"
        },
        "retrySleepTime": 1000,
        "retryTimes": 3,
        "sleepTime": 100,
        "timeOut": 10000,
        "useGzip": true
    },
    "spawnUrl": true,
    "startTime": 1544165065094,
    "status": "Running",
    "threadAlive": 1,
    "uUID": "github.com"
}

（2）ResultItems

{
    "all": {
        // 自定义的字段在这里
        "a_key":"a_value"
    },
    "request": {
        "binaryContent": false,
        "cookies": {},
        "headers": {},
        "priority": 0,
        "url": "https://github.com/code4craft?tab=repositories"
    },
    "skip": false
}

排错

Https下无法抓取只支持TLS1.2的站点

作者 code4craft 针对 ISSUE 701 提供了如下的解决方案：

更新会在0.7.4版本发布。

临时适配方式，修改HttpClientGenerator中的buildSSLConnectionSocketFactory方法，

return new SSLConnectionSocketFactory(createIgnoreVerifySSL(), new String[]{"SSLv3", "TLSv1", "TLSv1.1", "TLSv1.2"},
                    null,
                    new DefaultHostnameVerifier())
重写自己实现的HttpClientDownloader，并设置到Spider中。

java.net.UnknownHostException

请检查网络连接。

参考

WebMagic in Action - webmagic.io

免责声明：文章转载自《WebMagic》仅用于学习参考。如对内容有疑问，请及时联系本站处理。

WebMagic

WebMagic 是干嘛的？

快速开始

（1）依赖引入

（2）快速开始

更进一步

Pipeline 接口参数分析

排错

Https下无法抓取只支持TLS1.2的站点

java.net.UnknownHostException

参考

相关文章

http、https网络请求状态码 statusCode 200、300、400、500。WebSocket断开状态码 1006...

搜索和浏览离线 Wikipedia 维基百科（中/英）数据工具

开源软硬一体OpenCV AI Kit（OAK）

人脸识别手机端APK分享 | 极速体验人脸识别功能创建一个简单的人脸识别手机APP程序

Facebook应用程序权限请求以及数据获取

安装cuda实践

最新文章

随机推荐

思享工具箱导航

JSON工具

格式化转换

加解密编码

文本数字

网络

站长

计算

其他

对照列表

WebMagic

WebMagic 是干嘛的？

快速开始

（1）依赖引入

（2）快速开始

更进一步

Pipeline 接口参数分析

排错

Https下无法抓取只支持TLS1.2的站点

java.net.UnknownHostException

参考

相关文章

http、https网络请求状态码 statusCode 200、300、400、500。WebSocket断开状态码 1006...

搜索和浏览离线 Wikipedia 维基百科（中/英）数据工具

开源软硬一体OpenCV AI Kit（OAK）

人脸识别手机端APK分享 | 极速体验人脸识别功能 创建一个简单的人脸识别手机APP程序

Facebook应用程序权限请求以及数据获取

安装cuda实践

最新文章

随机推荐

思享工具箱导航

JSON工具

格式化转换

加解密编码

文本数字

网络

站长

计算

其他

对照列表

人脸识别手机端APK分享 | 极速体验人脸识别功能创建一个简单的人脸识别手机APP程序