scrapy框架--新建调试的main.py文件

摘要：

2、注意：断点在word crawler文件中设置，但您需要调试main。py文件，然后返回爬虫文件以查看调试结果。

一.原因：

由于pycharm中没有scrapy的一个模板，所有没办法直接在scrapy文件中调试，所有我们需要写一个自己的main.py文件，在文件里面调用命令行，来实现scrapy的一个调试。（在scrapy中可以调试，可以让我们的开发效率高）

二.注意点：

字爬虫文件中设置断点，但是需要在自己写的main.py文件中用debug进行调试，然后返回到爬虫文件观看调试结果即可。

三.编写main.py文件:

from scrapy.cmdline import execute   #调用此函数可以执行scrapy的脚本
import sys
import os
# 用来设置工程目录，有了它才可以让命令行生效
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
#os.path.abspath(__file__)  用来获取当前py文件的路径
#os.path.dirname()    用来获取文件的父亲的路径
#调用execute()函数执行scarpy的命令 scary crawl 爬虫文件名字
execute(['scarpy','crawl','jobbole'])

我们可以看一下scarpy命令行：scarpy crawl 爬虫文件名字（下图截取了部分运行之后的代码）

scrapy框架--新建调试的main.py文件第1张

四.修改setting,py问价中的一个参数：因为scrapy默认会读取每个网站的root协议，会把不符合root协议的url过滤掉，所有我们需要设置scrapy不需要遵守root协议。

scrapy框架--新建调试的main.py文件第2张

免责声明：文章转载自《scrapy框架--新建调试的main.py文件》仅用于学习参考。如对内容有疑问，请及时联系本站处理。

scrapy——8 scrapyd使用

scrapy——8 scrapyd使用什么是scrapyd 怎么安装scrapyd 如何使用scrapyd--运行scrapyd 如何使用scrapyd--配置scrapy.cfg 如何使用scrapyd--添加到爬虫工程如何使用scrapyd--运行爬虫任务如何使用scrapyd--停止爬虫任务如何使用scrapyd--删除爬虫项目如何...

scrapy爬虫系列之四--爬取列表和详情

功能点：如何爬取列表页，并根据列表页获取详情页信息？爬取网站：东莞阳光政务网完整代码：https://files.cnblogs.com/files/bookwed/yangguang.zip 主要代码： yg.py importscrapy from yangguang.items importYangguangItem classYgSpide...

爬虫框架 ---- scrapy 框架的介绍与安装

----- 爬虫基于B/S 模式的数据采集技术，按照一定的规则，自动的抓取万维网信息程序以一个或多个页面为爬取起点，从页面中提取链接实现深度爬取使用爬虫的列子第三方抢票软件（360/猎豹/ 百度抢票/携程/同城等）机器学习数据调研爬虫的调用过程网络请求页面解析（目标数据抓取和爬取驱动逻辑）数据保存 Scrapy 爬虫框架什么是...

Scrapy+eChart自动爬取生成网络安全词云

因为工作的原因，近期笔者开始持续关注一些安全咨询网站，一来是多了解业界安全咨询提升自身安全知识，二来也是需要从各类安全网站上收集漏洞情报。作为安全情报领域的新手，面对大量的安全咨询，多少还是会感觉无从下手力不从心。周末闲来无事，突发奇想，如果搞个爬虫，先把网络安全类文章爬下来，然后用机器学习先对文章进行分析，自动提取文章主成分关键词，然后再根据实际需求有...

Scrapy爬虫实例——校花网

学习爬虫有一段时间了，今天使用Scrapy框架将校花网的图片爬取到本地。Scrapy爬虫框架相对于使用requests库进行网页的爬取，拥有更高的性能。 Scrapy官方定义：Scrapy是用于抓取网站并提取结构化数据的应用程序框架，可用于广泛的有用应用程序，如数据挖掘，信息处理或历史存档。建立Scrapy爬虫工程在安装好Scrapy框架后，直接使用命...

Python之Scrapy安装

Scrapy框架是目前Python中最受欢迎的爬虫框架之一,所以今天就来具体了解一下Scrapy框架。什么是Scrapy框架？ Scrapy是一个快速、高层次、轻量级的屏幕抓取和web抓取的python爬虫框架 Scrapy的用途: Scrapy用途非常广泛,主要用于抓取特定web站点的信息并从中提取特定结构的数据,除此之外,还可用于数据挖掘、监测、自动...

scrapy框架--新建调试的main.py文件

相关文章

scrapy——8 scrapyd使用

scrapy爬虫系列之四--爬取列表和详情

爬虫框架 ---- scrapy 框架的介绍与安装

Scrapy+eChart自动爬取生成网络安全词云

Scrapy爬虫实例——校花网

Python之Scrapy安装

最新文章

随机推荐

思享工具箱导航

JSON工具

格式化转换

加解密编码

文本数字

网络

站长

计算

其他

对照列表