【Python爬虫】存储格式化数据

摘要:
Importcsvfile=打开('vies.csv',换行=“”)csvwriter=csv。writer(file)#写入标题行csvwriter。writer(['name','year'])#写入数据csvwriter。作家([‘A’,‘1998’])csvwriter。写入器(['C',

我们一直使用 print 方法打印爬虫获取的数据,接下来你将把这些数据保存到特定格式文件中。

CSV 格式

Python 提供了标准库 csv 来读写 csv 数据。

新建一个 Python 文件,输入以下代码,并运行。

import csv

file = open('movies.csv', 'w', newline='')
csvwriter = csv.writer(file)

# 写入标题行
csvwriter.writerow(['名称', '年份'])
# 写入数据
csvwriter.writerow(['A', '1992'])
csvwriter.writerow(['B', '1998'])
csvwriter.writerow(['C', '2010'])
file.close

使用记事本打开 movies.csv 文件,将运行结果复制到下面的文本框中:

通常用来存储简单的数据,表格类型数据首选

通常用来存储 「键-值」 数据,一般情况下的选择

存储非常复杂的数据格式,大多数情况下用不到

CSV 数据可以使用微软 Office Excel 软件打开。非常多的爬虫数据集都使用 CSV 作为存储格式。

将爬虫数据写入 CSV 文件

至此,你已经基本掌握了编写一个简单爬虫的技能,是不是很简单呢?

from requests_html import HTMLSession
import csv

session = HTMLSession()

file = open('movies.csv', 'w', newline='')
csvwriter = csv.writer(file)
csvwriter.writerow(['名称', '年份'])

links = ['https://movie.douban.com/subject/1292052/', 'https://movie.douban.com/subject/26752088/', 'https://movie.douban.com/subject/1962665/']

for link in links:
    r = session.get(link)
    title = r.html.find('#content > h1 > span:nth-child(1)', first=True)
    year = r.html.find('#content > h1 > span.year', first=True)
    csvwriter.writerow(title.text, year.text)

file.close()

上面代码有一处错误,你发现了吗?

运行结果:

【Python爬虫】存储格式化数据第1张

免责声明:文章转载自《【Python爬虫】存储格式化数据》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇android studio启动react-native项目安装ELK 日志收集下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

Delphi6/7 中XML 文档的应用

XML文档是新一代的Web数据格式。它可以用树的形式储存一切数据。下面介绍一下TXMLDocument控件的一些用法:已定义:XMLDoc: TXMLDocument;EncoderMIME: TIdEncoderMIME;DecoderMIME: TIdDecoderMIME;xn:IXMLNode;f:TFileStream;EncoderMIME和D...

R—读取数据(导入csv,txt,excel文件)

导入CSV、TXT文件 read.table函数:read.table函数以数据框的格式读入数据,所以适合读取混合模式的数据,但是要求每列的数据数据类型相同。 read.table读取数据非常方便,通常只需要文件路径、URL或连接对象就可以了,也接受非常丰富的参数设置: file参数:这是必须的,可以是相对路径或者绝对路径(注意:Windows下路径要...

怎么在vue中引入layui

新项目想用layui框架,学习了把前辈是怎么引入layui的,这里记录下 1.index.html要引入layui.js文件 <script src="/static/layui/layui.js" type="text/javascript" charset="utf-8"></script> 2.main.js文件要配置好lay...

TSQL笔记3:事务、锁定和并发

T-SQL笔记3:事务、锁定和并发 本章摘要 1:事务    1.1:显式事务    1.2:使用DBCC OPENTRAN显示最早的活动事务 2:锁定    2.1:查看锁的活动 3:并发影响及隔离级别    3.1:并发影响    3.2:隔离级别 4:阻塞    4.1:找到并解决阻塞进程    4.2:设定阻塞时间 5:死锁 1:事务      事...

angularJs学习笔记-入门

1.angularJs简介   angularJs是一个MV*的javascript框架(Model-View-Whatever,不管是MVVM还是MVC,统归MDV(model drive view)),其实是由google推出的SPA(single-page-application)应用框架。它的用于 数据在后端和前端之间的双向绑定。这就意味着你在后台...

SQL Server 一些使用小技巧

1、查询的时候把某一个字段的值拼接成字符串 以下是演示数据。 第一种方式:使用自定义变量 DECLARE @Names NVARCHAR(128) SET @Names='' -- 需要先赋值为空字符串,不然结果会是 null SELECT @Names=@Names+S_Name+',' -- S_Name 类型为...