Python Scrapy项目创建(基础普及篇)

摘要:
当使用Scrapy开发爬虫时,通常需要创建一个Scrapy项目。除了提供startproject子命令外,sketch还提供常用的子命令,如fetch、genspider、shell和version。智品蜘蛛/管道。py:项目的管道文件,负责处理爬行的信息。ZhipinSpider/设置。py:项目的配置文件。您可以在此文件中配置项目。为了更好地理解报废项目中每个组件的作用,下面给出了报废的概述,如图1所示。蜘蛛提取的信息将通过报废引擎以Item对象的形式传输到Pipeline。根据上述分析,使用Scrapy开发网络爬虫主要是开发两个组件,蜘蛛和管道。

在使用Scrapy开发爬虫时,通常需要创建一个Scrapy项目。通过如下命令即可创建 Scrapy 项目:

 scrapy startproject ZhipinSpider 

在上面命令中,scrapy 是Scrapy 框架提供的命令;startproject 是 scrapy 的子命令,专门用于创建项目;ZhipinSpider 就是要创建的项目名。

 scrapy 除提供 startproject 子命令之外,它还提供了 fetch(从指定 URL 获取响应)、genspider(生成蜘蛛)、shell(启动交互式控制台)、version(查看 Scrapy 版本)等常用的子命令。可以直接输入 scrapy 来查看该命令所支持的全部子命令。 

1、运行上面命令,将会看到如下输出结果(正常):

Python Scrapy项目创建(基础普及篇)第1张Python Scrapy项目创建(基础普及篇)第2张
New Scrapy project 'ZhipinSpider', using template directory 'd:python3.6libsite-packagesscrapy	emplatesproject', created in:
    C:UsersmengmahipinSpider

You can start your first spider with:
    cd ZhipinSpider
    scrapy genspider example example.com
View Code

上面信息显示 Scrapy 在当前目录下创建了一个 ZhipinSpider 项目,此时在当前目录下就可以看到一个 ZhipinSpider 目录,该目录就代表 ZhipinSpider 项目。

2、运行上面命令,将会看到如下输出结果(异常):

Fatal error in launcher: Unable to create process using '"'

  解决方法:

Python Scrapy项目创建(基础普及篇)第3张Python Scrapy项目创建(基础普及篇)第4张
python -m scrapy startproject XXXX
View Code


查看 ZhipinSpider 项目,可以看到如下文件结构:

ZhipinSpider
  │  scrapy.cfg
  │
  └──ZhipinSpider
      │  item.py
      │  middlewares.py
      │  pipelines.py
      │  setting.py
      │
      ├─ spiders
      │    │  __init__.py
      │    │
      │    └─ __pycache__
      └─ __pycache__

下面大致介绍这些目录和文件的作用:

  • scrapy.cfg:项目的总配置文件,通常无须修改。
  • ZhipinSpider:项目的 Python 模块,程序将从此处导入 Python 代码。
  • ZhipinSpider/items.py:用于定义项目用到的 Item 类。Item 类就是一个 DTO(数据传输对象),通常就是定义 N 个属性,该类需要由开发者来定义。
  • ZhipinSpider/pipelines.py:项目的管道文件,它负责处理爬取到的信息。该文件需要由开发者编写。
  • ZhipinSpider/settings.py:项目的配置文件,在该文件中进行项目相关配置。
  • ZhipinSpider/spiders:在该目录下存放项目所需的蜘蛛,蜘蛛负责抓取项目感兴趣的信息。

  为了更好地理解 Scrapy 项目中各组件的作用,下面给出 Scrapy 概览图,如图 1 所示。


Python Scrapy项目创建(基础普及篇)第5张
图 1 Scrapy 概览图


在图 1 中可以看到,Scrapy 包含如下核心组件:

  • 调度器:该组件由 Scrapy 框架实现,它负责调用下载中间件从网络上下载资源。
  • 下载器:该组件由 Scrapy 框架实现,它负责从网络上下载数据,下载得到的数据会由 Scrapy 引擎自动交给蜘蛛。
  • 蜘蛛:该组件由开发者实现,蜘蛛负责从下载数据中提取有效信息。蜘蛛提取到的信息会由 Scrapy 引擎以 Item 对象的形式转交给 Pipeline。
  • Pipeline:该组件由开发者实现,该组件接收到 Item 对象(包含蜘蛛提取的信息)后,可以将这些信息写入文件或数据库中。


经过上面分析可知,使用 Scrapy 开发网络爬虫主要就是开发两个组件,蜘蛛和 Pipeline。

免责声明:文章转载自《Python Scrapy项目创建(基础普及篇)》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇Ubuntu安装软件出问题自定义标签下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

随便看看

微信小程序----返回上一页刷新或当前页刷新

1.Reload()方法刷新当前页面;2.replace()方法刷新当前页面;3.页面自动刷新当前页面;实现js刷新当前页面的三种方法使用微信小程序--返回上一页刷新或当前页面刷新1.在实现效果之前,您需要了解微信小应用程序的页面生命周期。如果你不太清楚,你可以看到微信小程序——页面生命周期;2.我们可以知道微信小程序页面由五个循环组成:onLoad、onR...

如何更改SQL Server2008默认数据库的存储路径

1.在安装SQlServer时,修改路径:当然,也可以修改共享函数目录和实例根目录。但是,我不知道共享函数目录和实例根目录是什么。...

iview表格动态数据实现合并功能

需求原型:代码实现:html part:从'../../libs/c导入{MsgType,PublicType}...

vue+jspdf+html2canvas导出PDF文件

没有废话。首先,查看最终打印结果。我说最后打印的pdf文件看起来像这样。pdf文件的分页是通过设置jspdf实现的,但我暂时无法对文件内容进行分页。因为我们首先将需要打印的元素转换为画布,然后将画布转换为图像,然后将图像转换为pdf文件。...

Ubuntu 18.04 安装微信(附企业微信)

Ubuntu软件市场也是有的,所以安全性不用担心开源地址:https://github.com/geeeeeeeeek/electronic-wechat下面介绍几种安装的方式:1.直接解压运行先选择你系统版本:解压一下:tar-zxvfxxx.tar.gz算了,还是简单为新手分析一下==》tar命令可以解包.tar和.tar.gz。为啥我的没有微信图标?...

Java 实体类转json对象,属性名转key后首字母强制被转成小写的解决方案

  2.原因分析我们知道在Java规范中,实体类的属性名的命名规范需要遵循首字母小写的驼峰命名法,既是规范也是约束也是牢笼。如果不喜欢这种实现方式,还可以迭代json取值,将key的首字母转大写,也是可以哒。...