scrapy框架--新建调试的main.py文件

摘要:
2、 注意:断点在word crawler文件中设置,但您需要调试main。py文件,然后返回爬虫文件以查看调试结果。

一.原因:

由于pycharm中没有scrapy的一个模板,所有没办法直接在scrapy文件中调试,所有我们需要写一个自己的main.py文件,在文件里面调用命令行,来实现scrapy的一个调试。(在scrapy中可以调试,可以让我们的开发效率高)

二.注意点:

字爬虫文件中设置断点,但是需要在自己写的main.py文件中用debug进行调试,然后返回到爬虫文件观看调试结果即可。

三.编写main.py文件:

from scrapy.cmdline import execute   #调用此函数可以执行scrapy的脚本
import sys
import os
# 用来设置工程目录,有了它才可以让命令行生效
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
#os.path.abspath(__file__)  用来获取当前py文件的路径
#os.path.dirname()    用来获取文件的父亲的路径
#调用execute()函数执行scarpy的命令 scary crawl 爬虫文件名字
execute(['scarpy','crawl','jobbole'])

我们可以看一下scarpy命令行 :scarpy crawl 爬虫文件名字 (下图截取了部分运行之后的代码)

scrapy框架--新建调试的main.py文件第1张

四.修改setting,py问价中的一个参数:因为scrapy默认会读取每个网站的root协议,会把不符合root协议的url过滤掉,所有我们需要设置scrapy不需要遵守root协议。

scrapy框架--新建调试的main.py文件第2张

免责声明:文章转载自《scrapy框架--新建调试的main.py文件》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇也谈同步异步I/OJmeter-测试计划元件下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

scrapy——8 scrapyd使用

scrapy——8    scrapyd使用 什么是scrapyd 怎么安装scrapyd 如何使用scrapyd--运行scrapyd 如何使用scrapyd--配置scrapy.cfg 如何使用scrapyd--添加到爬虫工程 如何使用scrapyd--运行爬虫任务 如何使用scrapyd--停止爬虫任务 如何使用scrapyd--删除爬虫项目 如何...

scrapy爬虫系列之四--爬取列表和详情

功能点:如何爬取列表页,并根据列表页获取详情页信息? 爬取网站:东莞阳光政务网 完整代码:https://files.cnblogs.com/files/bookwed/yangguang.zip 主要代码: yg.py importscrapy from yangguang.items importYangguangItem classYgSpide...

爬虫框架 ---- scrapy 框架的介绍与安装

-----  爬虫 基于B/S 模式的数据采集技术,按照一定的规则,自动的抓取万维网信息程序 以一个或多个页面为爬取起点,从页面中提取链接实现深度爬取 使用爬虫的列子 第三方抢票软件(360/猎豹/ 百度抢票/携程/同城等) 机器学习  数据调研 爬虫的调用过程 网络请求 页面解析(目标数据抓取和爬取驱动逻辑) 数据保存 Scrapy 爬虫框架  什么是...

Scrapy+eChart自动爬取生成网络安全词云

因为工作的原因,近期笔者开始持续关注一些安全咨询网站,一来是多了解业界安全咨询提升自身安全知识,二来也是需要从各类安全网站上收集漏洞情报。 作为安全情报领域的新手,面对大量的安全咨询,多少还是会感觉无从下手力不从心。周末闲来无事,突发奇想,如果搞个爬虫,先把网络安全类文章爬下来,然后用机器学习先对文章进行分析,自动提取文章主成分关键词,然后再根据实际需求有...

Scrapy爬虫实例——校花网

学习爬虫有一段时间了,今天使用Scrapy框架将校花网的图片爬取到本地。Scrapy爬虫框架相对于使用requests库进行网页的爬取,拥有更高的性能。 Scrapy官方定义:Scrapy是用于抓取网站并提取结构化数据的应用程序框架,可用于广泛的有用应用程序,如数据挖掘,信息处理或历史存档。 建立Scrapy爬虫工程 在安装好Scrapy框架后,直接使用命...

Python之Scrapy安装

Scrapy框架是目前Python中最受欢迎的爬虫框架之一,所以今天就来具体了解一下Scrapy框架。 什么是Scrapy框架? Scrapy是一个快速、高层次、轻量级的屏幕抓取和web抓取的python爬虫框架 Scrapy的用途: Scrapy用途非常广泛,主要用于抓取特定web站点的信息并从中提取特定结构的数据,除此之外,还可用于数据挖掘、监测、自动...