Web Magic 简介

摘要:
请点击查看文章预览http://webmagic.io/docs/,该页面基于gitbook构建。本文件遵循CC-BYNC协议。WebMagic的架构设计参考了Scrapy,目标是尽可能模块化,并反映爬虫的功能特点。扩展部分提供了一些方便的功能,例如注释模式编写爬虫。此外,WebMagic还包括一些外围扩展和正在开发的产品项目WebMagic avalon。
WebMagic in Action

Little book of WebMagic.

logo

WebMagic是我业余开发的一款简单灵活的爬虫框架。基于它你可以很容易的编写一个爬虫。

这本小书以WebMagic入手,一方面讲解WebMagic的使用方式,另一方面讲解爬虫开发的一些惯用方案。

文章预览请点http://webmagic.io/docs/,页面基于gitbook进行构建。

本文档遵循CC-BYNC协议。

1.WebMagic概览

WebMagic项目代码分为核心和扩展两部分。核心部分(webmagic-core)是一个精简的、模块化的爬虫实现,而扩展部分则包括一些便利的、实用性的功能。WebMagic的架构设计参照了Scrapy,目标是尽量的模块化,并体现爬虫的功能特点。

这部分提供非常简单、灵活的API,在基本不改变开发模式的情况下,编写一个爬虫。

扩展部分(webmagic-extension)提供一些便捷的功能,例如注解模式编写爬虫等。同时内置了一些常用的组件,便于爬虫开发。

另外WebMagic还包括一些外围扩展和一个正在开发的产品化项目webmagic-avalon

免责声明:文章转载自《Web Magic 简介》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇Loadrunner支持的IE版本利用jmeter向数据库批量导入数据下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

WebMagic 抓取图片并保存至本地

1.近期接触到java 爬虫,开源的爬虫框架有很多,其中WebMagic 是国产的,文档也是中文的,网上资料很多,便于学习,功能强大,可以在很短时间内实现一个简单的网络爬虫。具体可参考官网 http://webmagic.io/docs/zh/。今天参考官网和网上资料实现了抓取网页图片,并保存在本地简单入门实例,日后再做进一步深入探讨。在实现过程中参考了一...

webMagic入门案例,启动流程,及从页面中获取元素,并放到Page对象中,并成功拿出

本例作用: 1)首次成功配置,了解软件运行机制2)从页面中获取元素三种方式 jsoup,xpath,css3) page.putField("subject","尝试存入结果项的内容,可从页面中获取值");4)page.getResultItems().get("subject") 从结果集中拿出数据5)List<String> links =...

WebMagic

WebMagic 是干嘛的? WebMagic 是一个 Java 平台上的开源爬虫框架,其设计参考了 Scrapy,实现则参考了 HttpClient 和 Jsoup。其由四大组件组成: Downloader,负责下载网页,使用 HttpClient。 PageProcessor,负责解析网页和链接发现,使用 Jsoup 和 Xsoup。 Schedul...

Web Magic 总体架构

1.2 总体架构 WebMagic的结构分为Downloader、PageProcessor、Scheduler、Pipeline四大组件,并由Spider将它们彼此组织起来。这四大组件对应爬虫生命周期中的下载、处理、管理和持久化等功能。WebMagic的设计参考了Scapy,但是实现方式更Java化一些。 而Spider则将这几个组件组织起来,让它们可...