Scrapy爬虫的暂停和启动

摘要:
重新启动时,可以从暂停状态开始爬网。已爬网的URL未处于爬网状态。要实现暂停和重新启动记录状态,您可以:1。首先将cd输入到scratch项目中(当然,您也可以通过编写脚本Python文件直接在pychar中运行它)。2.在scratch项目中创建一个文件夹以存储记录信息。3.执行命令:scratch crawlcnblogs-sJOBDIR=zant/001。执行该命令将启动指定的爬网程序,并记录状态,直到指定的目录爬网程序启动。

scrapy的每一个爬虫,暂停时可以记录暂停状态以及爬取了哪些url,重启时可以从暂停状态开始爬取过的URL不在爬取

实现暂停与重启记录状态

方法一:

1、首先cd进入到scrapy项目里(当然你也可以通过编写脚本Python文件直接在pycharm中运行)

2、在scrapy项目里创建保存记录信息的文件夹

3、执行命令:

  scrapy crawl 爬虫名称 -s JOBDIR=保存记录信息的路径

  如:scrapy crawl cnblogs -s JOBDIR=zant/001

  执行命令会启动指定爬虫,并且记录状态到指定目录

爬虫已经启动,我们可以按键盘上的ctrl+c停止爬虫,停止后我们看一下记录文件夹,会多出3个文件,其中的requests.queue文件夹里的p0文件就是URL记录文件,这个文件存在就说明还有未完成的URL,当所有URL完成后会自动删除此文件

当我们重新执行命令:scrapy crawl cnblogs -s JOBDIR=zant/001  时爬虫会根据p0文件从停止的地方开始继续爬取。

Scrapy爬虫的暂停和启动第1张

方法二:

在settings.py文件里加入下面的代码: 

JOBDIR='sharejs.com'

使用命令scrapy crawl 爬虫名,就会自动生成一个sharejs.com的目录,然后将工作列表放到这个文件夹里 

Scrapy爬虫的暂停和启动第2张

免责声明:文章转载自《Scrapy爬虫的暂停和启动》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇Java虚拟机解释器与JIT编译器Ubuntu简单搭建git私有服务下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

Java Web 面试中关于Spring MVC必问题,不看血亏!

前言 Spring MVC是Spring构建在Servlet API上的Web框架。目前大部分的Java Web 开发已经使用Spring MVC 来做。它提供了模型 - 视图 - 控制器架构,可用于开发灵活的Web应用程序。在本教程中,我们将重点关注与之相关的问题,因为它通常是Spring开发人员面试的主题。 为什么选择Spring MVC Spring...

Selenium Webdriver元素定位的八种常用方式【转】

在使用selenium webdriver进行元素定位时,通常使用findElement或findElements方法结合By类返回的元素句柄来定位元素。其中By类的常用定位方式共八种,现分别介绍如下。 1. By.name() 假设我们要测试的页面源码如下: <button id="gbqfba" aria-label="Google Search...

haproxy配置文件详解和ACL功能

HAProxy系列文章:http://www.cnblogs.com/f-ck-need-u/p/7576137.html haproxy几乎每个大版本都提供了官方手册(内容几乎都相同),手册非常详细。例如haproxy 1.7版本关于配置文件的官方手册:http://cbonte.github.io/haproxy-dconv/1.7/configu...

0703-spring cloud config-git配置属性加解密之对称加密

一、概述   可以使用{cipher} *格式的加密值,只要有一个有效的密钥,那么它们将在主应用程序上下文获取环境之前被解密。要在应用程序中使用加密功能,您需要在您的类路径中包含Spring Security RSA(Maven协调“org.springframework.security:spring-security-rsa”),并且您还需要JVM中的...

Linux命令(一)

一、cd  切换文件夹   绝对路径(以/根目录开头的路径)   相对路径(基于某个跟目录下的路径,不以/根目录开头)   cd /home  绝对路径(以根目录开头)   cd admin  相对路径(不以根目录开头)   cd ..  返回上级目录   cd ~  返回到自己的家目录(/home/admin)   cd -  回放功能  pwd  查看...

windows下的shellcode剖析浅谈[转自看雪]

标 题: 【原创】windows下的shellcode剖析浅谈作 者:snowdbg时 间: 2009-10-06,11:12链 接: http://bbs.pediy.com/showthread.php?t=99007  今天是中秋节,正好我的文章在今天基本完成,作为中秋礼物送给大家,由于本人水平有限希望大家多多批评指正!学习了好些日子了,思路总是乱...