scrapy——8 scrapyd使用

摘要:
它支持在http命令模式下发布、删除、启动和停止爬网程序。安装的版本可能不是最新的。找到划痕。cfg文件,该文件将在从https://pipingsstallscratch客户端创建新的scratch项目时生成(安装的版本可能不是最新版本)。打开文件并查看以下内容#自动创建者:

scrapy——8    scrapyd使用

  1. 什么是scrapyd
  2. 怎么安装scrapyd
  3. 如何使用scrapyd--运行scrapyd
  4. 如何使用scrapyd--配置scrapy.cfg
  5. 如何使用scrapyd--添加到爬虫工程
  6. 如何使用scrapyd--运行爬虫任务
  7. 如何使用scrapyd--停止爬虫任务
  8. 如何使用scrapyd--删除爬虫项目
  9. 如何使用scrapyd--查看存在的爬虫工程

 

什么是scrapyd?

scrapyd是运行scrapy爬虫的服务程序,它支持以http命令方式发布、删除、启动、停止爬虫程序。而且scrapyd可以同时管理多个爬虫,每个爬虫还可以有多个版本。

特点:

  1. 可以避免爬虫源码被看见。
  2. 有版本控制。
  3. 可以远程启动、停止、删除

scrapyd官方文档:https://scrapyd.readthedocs.io/en/stable/overview.html

怎么安装scrapyd

  1. 安装scrapyd

主要有两种方法:

pip install scrapyd (安装的版本可能不是最新的)

https://github.com/scrapy/scrapyd 中下载源码,
运行python setup.py install 命令进行安装

    2. 安装scrapyd-deploy

主要有两种安装方式:
pip install scrapyd-client(安装的版本可能不是最新版本)
http://github.com/scrapy/scrapyd-client 中下源码,
运行python setup.py install 命令进行安装。


 

如何使用scrapyd?

  • 运行scrapyd

直接在终端输入scrapyd,访问http链接

scrapy——8 scrapyd使用第1张

scrapy——8 scrapyd使用第2张

  •  配置scrapy.cfg

 这时进入到我们的scrapy项目中,找到新建scrapy项目都会生成的scrapy.cfg文件

 打开后是这样的内容

# Automatically created by: scrapy startproject
#
# For more information about the [deploy] section see:
# https://scrapyd.readthedocs.io/en/latest/deploy.html

[settings]
default = tencent.settings

[deploy]
#url = http://localhost:6800/
project = tencent
  1.  首先去掉url前面的注释符号,url是scrapyd服务器的网址
  2. 然后project=tenCent为项目名称,可以随意起名
  3. 修改[deploy]为[depoly:100],表示把爬虫发布到名为100的爬虫服务器上,一般在需要同时发布爬虫到多个目标服务器时使用

scrapy——8 scrapyd使用第3张

  • 添加到爬虫工程

 命令如下:

Scrapyd-deploy <target> -p <project> --version <version>

参数解释:

  • target:deploy后面的名称。
  • project:自行定义名称,跟爬虫的工程名字无关。
  • version:自行定义版本号,不写的话默认为当前时间戳

现在我们来上传一个新的项目到scrapd中

来到项目的能运行scrapy的路径下,输入:

scrapyd-deploy 100 -p tenCent --version v1

 scrapy——8 scrapyd使用第4张

这是刷新6800端口网页,会发现已经有项目被添加进来了

scrapy——8 scrapyd使用第5张

此时的job还是没有数据的

scrapy——8 scrapyd使用第6张

  • 运行爬虫任务

运行爬虫项目的命令如下:

curl http://localhost:6800/schedule.json -d project=project_name -d spider=spider_name
  •  project:scrapy.cfg中设置的project
  • spider_name:运行scrapy的项目名称===》scrapy list

scrapy——8 scrapyd使用第7张

运行代码以后:

scrapy——8 scrapyd使用第8张

scrapy——8 scrapyd使用第9张

  • 停止爬虫任务

    curl http://localhost:6800/cancel.json -d project=project_name -d job=job_id

 job_id:如图所致

 scrapy——8 scrapyd使用第10张scrapy——8 scrapyd使用第11张

scrapy——8 scrapyd使用第12张

可以看出,爬虫在2:00时就停止了

log可以查看运行结果

  • 删除爬虫

curl http://localhost:6800/delproject.json -d project=project_name

scrapy——8 scrapyd使用第13张

scrapy——8 scrapyd使用第14张

  • 查看scrapyd中存在的项目

curl http://localhost:6800/listprojects.json

scrapy——8 scrapyd使用第15张

 还有其他更多的命令,请参考官网:https://scrapyd.readthedocs.io/en/latest/api.html

免责声明:文章转载自《scrapy——8 scrapyd使用》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇iOS绘图教程经典alsa 录音和播放程序下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

Linux 打开端口方法(防火墙操作)

Linux防火墙操作(经测试部分命令无效) 关闭防火墙:service iptables stop 开启防火墙:service iptables start 防火墙状态:service iptables status 永久关闭:chkconfig iptables off 永久开启:chkconfig iptables on 方法一(命令):    1. ...

vue(初探预渲染)

---恢复内容开始---  一、前言                                                                                                     1、简介预渲染                     2、案例演示(不配置预渲染)                  ...

04_RHEL7.1忘记root密码

在开机进入启动项时,选择需要重设密码的那个启动项 按e进入编辑模式,找到rhgb和quiet参数(几乎在最下面),替换为 init=/bin/sh 按ctrl+X不需密码进入shell 以rw的方式重新挂载 sh-4.2 # mount –o remount,rw/   运行passwd,并按提示修改root密码 如何之前系统启用了...

码云Android项目构建注意事项(转载)

1、ant项目 build.xml必须位于项目根目录。 2、maven项目 pom.xml必须位于项目根目录。 3、gradle项目 由于gradle的配置灵活,我们做了一些规范,并且增加了一下机制来处理签名问题。 二、码云Android项目构建示例 android-app 项目目录结构(以osc/android-app为例) gradle 需要的配置和...

shell 脚本之set 命令(转)

服务器的开发和管理离不开 Bash 脚本,掌握它需要学习大量的细节。 set命令是 Bash 脚本的重要环节,却常常被忽视,导致脚本的安全性和可维护性出问题。本文介绍它的基本用法,让你可以更安心地使用 Bash 脚本。 一、简介 我们知道,Bash 执行脚本的时候,会创建一个新的 Shell。 $ bash script.sh 上面代码中,scrip...

01. go-admin的下载与启动

目录 一.介绍 二.新建空文件夹 三.获取后台源码并启动 1.下载编译go代码 2.配置命令到goland IDE ,debug启动 四.获取前端ui源码并启动 1.下载编译go代码 2.启动项目 ** go-admin 基于Gin + Vue + Element UI的前后端分离权限管理系统** 系统初始化极度简单,只需要配置文件...