抖音爬虫

摘要:
importrequestsimorttimeimportreimportjsonimportpandasaspdheaders={'用户':'胆汁'}defdouyin_ Spyder(id,url2):data=请求。获取('http://aweme.snssdk.com/aweme/v1/user/?user_id={}&重试类型=r
import requests
import time
import re
import json
import pandas as pd
headers= {'user-agent': 'mobile'}
def douyin_Spyder(id,url2):
    data=requests.get('http://aweme.snssdk.com/aweme/v1/user/?user_id={}&retry_type=retry_http&iid=59238161664&device_id=62578609382&ac=wifi&channel=aweGW&aid=1128&app_name=aweme&version_code=230&version_name=2.3.0&device_platform=android&ssmix=a&device_type=CHM-TL00H&device_brand=Honor&language=zh&os_api=19&os_version=4.4.4&uuid=745270478576539&openudid=589e358ee90e53&manifest_version_code=230&resolution=720*1280&dpi=320&update_version_code=2302&_rticket=1548395034447&ts={}&as=a1659a843a314c425a4355&cp=a518ca55a1a04624e1gkoo&mas=0141e7dcb9b69675674bffb55a194f1c3facaccc2c86ac4c2cc62c'.format(id,time.time()),headers=headers)
    data2 = requests.get(url2,headers=headers)
    data2=requests.get(url2,headers=headers)
    content=data.content.decode('utf-8')
    dict_json = json.loads(content)
    print('******主页数据******')
    print('粉丝数:',dict_json['user']['follower_count'])
    print('获赞数:', dict_json['user']['total_favorited'])
    content2 = data2.content.decode('utf-8')
    dict_json2 = json.loads(content2)
    aweme_list=dict_json2['aweme_list']
    print('******视频区数据******')
    comment_count_list=[]
    digg_count_list = []
    share_count_list = []
    play_list = []
    forward_count_list = []
    id=[]
    desc=[]
    for i,key  in enumerate(aweme_list):
        # print('>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>')
        # print('标题:',key['desc'])
        # print('ID:',key['aweme_id'])
        video=key['video']['play_addr']['url_list'][1]
        print('视频地址:',key['video']['play_addr']['url_list'][1])
        res = requests.get(video, headers=headers)
        with open(r'C:/Users/Administrator/Desktop/B站视频/迪丽热巴'+str(i)+'.mp4', 'wb') as f:
            f.write(res.content)
        # print('分享地址:',key['share_url'])
        # print('评论数:',key['statistics']['comment_count'])
        # print('点赞数:', key['statistics']['digg_count'])
        # print('转发量:', key['statistics']['share_count'])
        # print('forward_count:', key['statistics']['forward_count'])
        comment_count_list .append(key['statistics']['comment_count'])
        digg_count_list.append(key['statistics']['digg_count'])
        share_count_list .append(key['statistics']['share_count'])
        forward_count_list.append( key['statistics']['forward_count'])
        play_list.append(key['share_url'])
        id.append(key['aweme_id'])
        desc.append(key['desc'])
    df = pd.DataFrame({'ID': id, '标题': desc,'链接地址':play_list,'评论数':comment_count_list,'点赞数':digg_count_list,'转发量':share_count_list})
    df=df.set_index('ID')
    tim=time.strftime('%Y-%m-%d',time.localtime(time.time()))
    df.to_excel('C:/Users/Administrator/Desktop/'+str(tim)+'-7.xlsx')


if __name__ == '__main__':
    url2=input('url:')
    douyin_Spyder(79302973596,url2)

免责声明:文章转载自《抖音爬虫》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇X86-64汇编,寄存器,栈帧杂记《Microduino实战》——2.3 Microduino STM32核心系列下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

随便看看

GitHub怎样fork别人的代码到自己仓库并进行贡献

在fork完成其他人的代码后,它也在自己的帐户下拥有该项目,然后将其克隆到自己的计算机上。然后它可以通过gitclone命令修改项目。但是,不建议直接在主分支上修改项目。最好在主分支的基础上剪切一个dev分支,然后在dev分支上修改它。修改后,将dev分支合并到master分支。...

weblogic 的应用链接不上数据库报异常 Caused By: weblogic.common.ResourceException: Io exception: Connection reset 错误信息表示访问数据库异常,创建链接池失败

weblogic对此值注释:尝试建立数据库连接的间隔秒数。如果已设置此值且在创建数据源时数据库不可用,则在您指定的秒数之后,WebLogicServer将重新尝试在池中创建连接,并会不断尝试创建连接,直到创建成功。如果设置为0,则将禁用连接重试。...

mysql修改字段防止锁表

步骤1:修改大表、addcolumn或dropcolumn的字段,操作完成后将锁定该表。此时,查询ok、insert和update将等待锁定。...

C#控件重绘学习(一)

由于需要制作工业控制软件,传统的控制已不能满足实际要求,因此控制的重新绘制迫在眉睫。因为考研花费了很多时间,而C#的学习已经搁浅了很长时间,所以我打算借此机会仔细彻底地研究控件的重新绘制。首先,查看Button的旧背景:namespace:SystemWindows.Forms程序集:System.Windows.FormsButton具有太多属性:例如Ba...

Linux系统glibc库版本信息查看

有时我们经常需要检查当前系统的glibc版本。您可以按如下方式进行检查:/lib/libc。所以。6有时:/lib/x86-64-linux/libc。因此6.将文件作为命令执行。为什么库可以直接运行?Glibc是gnu发布的libc库,即c运行时。glibc是linux系统中最低级别的api,几乎任何其他运行时都将依赖glibc。Gcc和libc是相互依赖...