Learning Scrapy笔记(六)- Scrapy处理JSON API和AJAX页面

摘要:
您可以将JSON数据更改为Python对象api的源代码地址。py文件,通过json语句。loads(response.body),并将spider的名称更改为api以启动_将URL更改为JSONAPI URL:使用start_ request()函数(请参阅LearningScrapy Notes(V)-Scrapy Login Website)修改解析函数defparse(self)。

摘要:介绍了使用Scrapy处理JSON API和AJAX页面的方法

有时候,你会发现你要爬取的页面并不存在HTML源码,譬如,在浏览器打开http://localhost:9312/static/,然后右击空白处,选择“查看网页源代码”,如下所示:

Image 107

就会发现一片空白

Image 108

留意到红线处指定了一个名为api.json的文件,于是打开浏览器的调试器中的Network面板,找到名为api.json的标签

Image 109

在上图的红色框里就找到了原网页中的内容,这是一个简单的JSON API,有些复杂的API会要求你先登录,发送POST请求,或者返回一些更加有趣的数据结构。Python提供了一个用于解析JSON的库,可以通过语句json.loads(response.body)将JSON数据转变成Python对象

api.py文件的源代码地址:

https://github.com/Kylinlin/scrapybook/blob/master/ch05%2Fproperties%2Fproperties%2Fspiders%2Fapi.py

复制manual.py文件,重命名为api.py,做以下改动:

  • 将spider名修改为api

  • 将start_urls修改为JSON API的URL,如下

start_urls = (
'http://web:9312/properties/api.json',
)

如果在获取这个json的api之前,需要登录,就使用start_request()函数(参考《Learning Scrapy笔记(五)- Scrapy登录网站》)

  • 修改parse函数
def parse(self, response):
    base_url = "http://web:9312/properties/"
    js = json.loads(response.body)  
for item in js:
        id = item["id"]
        url = base_url + "property_%06d.html" % id # 构建一个每个条目的完整url
        yield Request(url, callback=self.parse_item)

上面的js变量是一个列表,每个元素都代表了一个条目,可以使用scrapy shell工具来验证:

scrapy shell http://web:9312/properties/api.json

Image 110

运行该spider:scrapy crawl api

Image 111

可以看到总共发送了31个request,获取了30个item

再观察上图中使用scrapy shell工具检查js变量的图,其实除了id字段外,还可以获取title字段,所以可以在parse函数中同时获取title字段,并将该字段的值传送到parse_item函数中填充到item里(省去了在parse_item函数中使用xpath来提取title的步骤),修改parse函数如下:

title = item["title"]
yield Request(url, meta={"title": title},callback=self.parse_item) #meta变量是一个字典,用于向回调函数传递数据

在parse_item函数中,可以在response中提取这个字段

l.add_value('title', response.meta['title'], 
       MapCompose(unicode.strip, unicode.title))

免责声明:文章转载自《Learning Scrapy笔记(六)- Scrapy处理JSON API和AJAX页面》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇【Unity优化】资源管理系列05:AssetBundle 常见问题java集合 LinkedList 添加元素 add() 的底层下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

字符设备驱动程序框架

字符设备包含:设备号(dev_t),设备(cdev),file_operation 。 创建一个字符设备的流程: 0 创建一个字符设备,可以是静态定义或者动态申请; 1 首先要得到一个设备号,可以是静态定义或者动态申请; 2 把写好的file_operation 并保存到 cdev,实现cdev的初始化; 3 使用cdev_add()注册cdev,告诉内...

C#操作API函数

作为初学者来说,在C#中使用API确是一件令人头疼的问题。在使用API之前你必须知道如何在C#中使用结构、类型转换、安全/不安全代码,可控/不可控代码等许多知识。  一切从简单开始,复杂的大家一时不能接受。我们就从实现一个简单的MessageBox开始。首先打开VS.Net ,创建一个新的C#工程,并添加一个Button按钮。当这个按钮被点击,则显示一个M...

mysql last_insert_id() (转载)

先来看看官方的说明 The ID that was generated is maintained in the server on a per-connection basis. This means that the value returned by the function to a given client is the first AUTO_I...

以太坊代币合约详析

    以太坊代币 在以太坊系统中,存在作为基础货币的 Ether(以太),以及同样可以作为货币使用的 Token(代币)。 以太坊与其他加密货币的主要不同在于,以太坊不是单纯的货币,而是一个环境/平台。在这个平台上,任何人都可以利用区块链的技术,通过智能合约来构建自己的项目和DAPPS(去中心化应用)。 如果把以太坊理解成互联网,DAPPS则是在上面运...

ucos(八)软件定时器

一、概述   内核提供了一个模拟定时器的机制,类似于任务,但是占用资源少,只能做一些简单的定时控制,如可以定时的喂狗、控灯。在软件定时器,不能添加时间管理函数、阻塞等待函数(等待互斥锁/信号量/事件标志组/消息队列)。 1.创建软件定时器 void OSTmrCreate (OS_TMR *p_tmr, CPU_CHAR *p_name, OS_TIC...

Qt5之反射机制(内省)

Qt的元对象系统除了提供信号/槽机制的特性之外,它还提供了以下特性: QObject::metaObject() 返回关联的元对象 QMetaObject::className() 在运行时状态下返回类名 QObject::inherits() 判断类的继承关系 QObject::tr(),QObject::trUtf8() 提供国际化,翻...