以『赘婿』为实战案例,手把手教会你用python爬取『爱奇艺』视频弹幕

摘要:
前言:最近,爱奇艺的独唱热播剧《赘婿》火了。我一直在追主人。借助我的技术,我想爬上屏幕,分析这部剧的具体情况和网友的评论!为了让小白彻底学习使用python抓取爱奇艺屏幕的技术,本文详细介绍了如何抓取,然后对数据进行分析!如果您对本文的源代码感兴趣,请扫描代码并关注“Python爬虫数据分析和挖掘”后台回复:爱奇艺屏幕,获取完整代码。
1前言

最近爱奇艺独播热剧『赘婿』特别火,号主我也在一直追,借助手中的技术,想爬取弹幕分析该剧的具体情况以及网友的评论!

由于为了让小白彻底学会使用python爬取爱奇艺弹幕的技术,因此本文详细介绍如何进行爬取,下文再进行分析数据

2分析数据包

1.查找数据包

在浏览器里面按F12

以『赘婿』为实战案例,手把手教会你用python爬取『爱奇艺』视频弹幕第1张

找到这类url

https://cmts.iqiyi.com/bullet/54/00/7973227714515400_60_2_5f3b2e24.br

2.分析弹幕链接

其中的/54/00/7973227714515400,才是有用的!!!!

爱奇艺的弹幕获取地址如下:

https://cmts.iqiyi.com/bullet/参数1_300_参数2.z

参数1是:/54/00/7973227714515400

参数2是:数字1、2、3.....

爱奇艺每5分钟会加载新的弹幕,每一集约是46分钟,46除以5向上取整就是10

因此弹幕的链接如下:

https://cmts.iqiyi.com/bullet/54/00/7973227714515400_300_1.z
https://cmts.iqiyi.com/bullet/54/00/7973227714515400_300_2.z
https://cmts.iqiyi.com/bullet/54/00/7973227714515400_300_3.z
......
https://cmts.iqiyi.com/bullet/54/00/7973227714515400_300_10.z

3.解码二进制数据包

通过弹幕链接下载的弹幕包是以z为后缀格式的文件,需要进行解码!

def zipdecode(bulletold):
    '对zip压缩的二进制内容解码成文本'
    decode = zlib.decompress(bytearray(bulletold), 15 + 32).decode('utf-8')
    return decode

解码之后将数据保存成xml格式

# 把编码好的文件分别写入个xml文件中(类似于txt文件),方便后边取数据
  with open('./lyc/zx' + str(x) + '.xml', 'a+', encoding='utf-8') as f:
      f.write(xml)

以『赘婿』为实战案例,手把手教会你用python爬取『爱奇艺』视频弹幕第2张

以『赘婿』为实战案例,手把手教会你用python爬取『爱奇艺』视频弹幕第3张

3解析xml

1.提取数据

以『赘婿』为实战案例,手把手教会你用python爬取『爱奇艺』视频弹幕第4张

通过查看xml文件,我们需要提取的内容有1.用户id(uid)、2.评论内容(content)、3.评论点赞数(likeCount)。

#读取xml文件中的弹幕数据数据
from xml.dom.minidom import parse
import xml.dom.minidom
def xml_parse(file_name):
    DOMTree = xml.dom.minidom.parse(file_name)
    collection = DOMTree.documentElement
    # 在集合中获取所有entry数据
    entrys = collection.getElementsByTagName("entry")
    print(entrys)
    result = []
    for entry in entrys:
        uid = entry.getElementsByTagName('uid')[0]
        content = entry.getElementsByTagName('content')[0]
        likeCount = entry.getElementsByTagName('likeCount')[0]
        print(uid.childNodes[0].data)
        print(content.childNodes[0].data)
        print(likeCount.childNodes[0].data)

以『赘婿』为实战案例,手把手教会你用python爬取『爱奇艺』视频弹幕第5张

4保存数据

1.保存前工作

import xlwt
# 创建一个workbook 设置编码
workbook = xlwt.Workbook(encoding = 'utf-8')
# 创建一个worksheet
worksheet = workbook.add_sheet('sheet1')


# 写入excel
# 参数对应 行, 列, 值
worksheet.write(0,0, label='uid')
worksheet.write(0,1, label='content')
worksheet.write(0,2, label='likeCount')

导入xlwt库(写入csv),并定义好标题(uid、content、likeCount)

2.写入数据

for entry in entrys:
    uid = entry.getElementsByTagName('uid')[0]
    content = entry.getElementsByTagName('content')[0]
    likeCount = entry.getElementsByTagName('likeCount')[0]
    print(uid.childNodes[0].data)
    print(content.childNodes[0].data)
    print(likeCount.childNodes[0].data)
    # 写入excel
    # 参数对应 行, 列, 值
    worksheet.write(count, 0, label=str(uid.childNodes[0].data))
    worksheet.write(count, 1, label=str(content.childNodes[0].data))
    worksheet.write(count, 2, label=str(likeCount.childNodes[0].data))
    count=count+1

最后保存成弹幕数据集-李运辰.xls

for x in range(1,11):
    l = xml_parse("./lyc/zx" + str(x) + ".xml")


# 保存
workbook.save('弹幕数据集-李运辰.xls')

以『赘婿』为实战案例,手把手教会你用python爬取『爱奇艺』视频弹幕第6张

5总结

以『赘婿』为实战案例,手把手教会你用python爬取『爱奇艺』视频弹幕第7张

以『赘婿』为实战案例,手把手教会你用python爬取『爱奇艺』视频弹幕第8张

1.通过实战案『赘婿』,手把手实现python爬取爱奇艺弹幕。

2.python解析xml格式数据。

3.将数据写入excel。

如果大家对本文代码源码感兴趣,扫码关注『Python爬虫数据分析挖掘』后台回复:爱奇艺弹幕 ,获取完整代码。

------------- 推荐文章 -------------

1.python爬取下载m3u8加密视频,原来这么简单!


2.爬取1907条『课程学习』数据,分析哪类学习资源最受大学生青睐


3.python爬取各类基金数据,以『动图可视化』方式展示基金的涨跌情况

以『赘婿』为实战案例,手把手教会你用python爬取『爱奇艺』视频弹幕第9张

免责声明:文章转载自《以『赘婿』为实战案例,手把手教会你用python爬取『爱奇艺』视频弹幕》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇路由器原理及作用以及交换机Python基础之列表下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

mybatis教程:入门>>精通>>实战

以前曾经用过ibatis,这是mybatis的前身,当时在做项目时,感觉很不错,比hibernate灵活。性能也比hibernate好。而且也比较轻量级,因为当时在项目中,没来的及做很很多笔记。后来项目结束了,我也没写总结文档。已经过去好久了。但最近突然又对这个ORM 工具感兴趣。因为接下来自己的项目中很有可能采用这个ORM工具。所以在此重新温习了一下 m...

Python 离线环境

一、应用场景 比如:对于数据安全要求比较严格的机房,服务器是不允许上网的。那么我现在开发了一套python程序,需要一些模块,怎么运行? 二、离线包制作 有2个解决方案: 1. 使用requirement.txt离线安装打包好的包whl 请参考链接:https://blog.csdn.net/wangyaninglm/article/details/541...

js实现文字无间断左右滚动和图片左右滚动

var MyMar=setInterval(Marquee,speed); scroll_div.onmouseover=function() {clearInterval(MyMar);} scroll_div.onmouseout=function() {MyMar=setInterval(Marquee,speed);} } </script&...

python爬取图片遇见src乱码: data:image/png;base64

  python爬取图片遇见src乱码: data:image/png;base64 向爬取自己喜欢的图片,但是在爬取下来的代码当中图片的src会出现乱码的情况:data:image/png;base64。搞了我好长时间,试过伪装headers,也试过通过修改网页js的内容来让img的src显示出来,也试过修改div的display属性,但是全部都没用,最...

python 第三方库BeautifulSoup4文档学习(4)

bs4 搜索文档树 搜索文档树有很多方法,比较常用的是find()和find_all() ,在方法中我们通常需要加上特定的参数去查找我们需要的内容,这样的参数就被看作为过滤器。 依然使用官方提供的测试html文档 html_doc = """ <html><head><title>The Dormouse's story...

PyMongo 常见问题

PyMongo是线程安全的吗PyMongo是线程安全的,并且为多线程应用提供了内置的连接池 PyMongo是进程安全的吗PyMongo不是进程安全的,如果你在fork()中使用MongoClient实例,必须小心。具体来说,MongoClient实例不能从父进程复制到子进程,父进程和每个子进程必须创建属于自己的MongoClient实例。由于本身的不兼容性...