利用chrome浏览器爬取数据

摘要:
自行下载相关库,并直接从selenium import webdriverfrombs4importBeautifulSoupiportTime#中添加代码手动添加path=“C:\ProgramFiles(x86)GoogleChromeApplicationchromedriver.exe”driver=webdriver。Chrome(可执行路径=路径)url=“

相关的库自己下载吧,直接上代码

from selenium import webdriver
from bs4 import BeautifulSoup
import time

#手动添加路径
path = "C:Program Files (x86)GoogleChromeApplicationchromedriver.exe"
driver = webdriver.Chrome(executable_path=path)

url = "https://www.huomao.com/channel/lol"

# 司机开车了
driver.get(url)
time.sleep(5)
# 让页面移到最下面点击加载,连续6次,司机会自动更新!!
# for i in range(6):
#     driver.find_element_by_id("获取更多").click()
#     time.sleep(1)

# 开始解析
soup = BeautifulSoup(driver.page_source, "html.parser")


page_all = soup.find("div", attrs={"id": "channellist"})

pages = page_all.find_all("div", attrs={"class": "list-smallbox no-logo"})



for page in pages:
    aa=page.find('a')
    # print(aa)
    # print(aa.attrs['title'])
    bb=page.find('em').string.strip()
    print("主播房间:" + bb)
    cc=page.find('span',attrs={"class": "nickname"}).string.strip()
    print("主播:" + cc)

    dd = page.find_all('em')
    if len(dd)==2:
        ee = dd[1].find('span').string.strip()
        print('人气:' + ee)
    else:
        print('人气:主播休息了' )
    # print(len(dd))
    # for dds in dd:
    #     print(dds)

免责声明:文章转载自《利用chrome浏览器爬取数据》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇HDSF主要节点解说(二)工作原理Liunx之Centos系统无人值守全自动化安装下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

随便看看

爱快路由器的一些注意事项硬件配置+多线负载均衡

以下数据仅供参考:注意:磁带载体的数量因使用环境和带宽大小的不同而不同。此外,请注意32位系统的安装。最大内存为4G,最大内存为3G-----硬盘------安装“爱快路由”时对硬盘的最低要求为1G以上。...

可用的rtmp互联网地址

Rtmp:vlc使用ffmpeg获取Rtmp网络流。代码文件路径:vlc-2.2.1 modulesassesavio。hvlc-2.2.1模块。c在模块的开放回调函数OpenAvio中,使用以下代码打开rtmp网络流。avio_打开(&avio_FLAG_READ);//或者这个avio_open2(&sys-&gt...

流控制、FlowControl

作用就是防止网络拥堵时导致的“丢包”问题,大致的工作原理就是当链路两端的设备有一端忙不过来了,他会给另外一端的设备发一个暂停发包的命令,通过这种方式来缓解压力,解决丢包问题。看上去流控制应该是个非常好的防止丢包的方法,但是为什么我们还要在无盘上关闭他呢?...

Swift开发中 JSON对象/JSON字符串/Data的互转

本文将介绍常见的转换#pragmark JSON(object)------˃JSON string 1,原生方法//JSON------˃data------˃JSON string letdata=try?JSON序列化。data#pragmark数据------˃JSON(对象)1.本机方法guardletarray=try?[[String:AnyO...

weblogic补丁下载与安装补丁的方法

去:https://jingyan.baidu.com/article/642c9d34b3b493254a46f7e4.htmlweblogic安装应用程序后,可能会发现该版本存在漏洞。我们可以根据weblogic漏洞报告下载补丁,然后修复相应的漏洞。我们如何下载和安装修补程序?Weblogic 10.3.6.0 Linux步骤1:在Weblogic中出现...