python-pyppeteer模块使用汇总

摘要:
#基本上,编写这种类型就足够了:指定屏幕截图类型,可以是jpeg或png。不适用于png图像。DisplayHeaderFooter:显示页眉和页脚。HeaderTemplate:用于打印标题的HTML模板。它应该是具有以下类的有效HTML标记。如果设置,则优先于宽度或高度。

一.简单代码示例

import asyncio
from pyppeteer import launch

async def main():
    browser = await launch()
    page = await browser.newPage()    #打开一个新页面
    await page.goto('https://www.baidu.com/')  #访问百度
    await page.screenshot({'path': 'baidu.png'})  #截图并存储
    await browser.close()

asyncio.get_event_loop().run_until_complete(main())

二.page对象的方法

await page.方法

1.设置相关

setUserAgent(str)

设置UserAgent

setCookie(cookie1, cookie2.......)

设置cookie

cookies 应该是包含这些字段的字典:
name(str):必填
value(str):必填
url (STR)
domain (STR)
path (STR)
expires (数字):Unix时间,以秒为单位
httpOnly (布尔)
secure (布尔)
sameSite(str):'Strict'或'Lax'

2.页面相关

goto(url)

访问网页

reload()

页面加载完毕

goBack()/goForward()

页面后退/页面前进

3.执行js

evaluate(js_str)

对于某个元素执行js

4.截图

screenshot(dict)

dictkey

path(str):保存图像的文件路径。屏幕截图类型将从文件扩展名中推断出来。 #基本上写个这个就够了

type(str):指定屏幕截图类型,可以是jpeg或 png。默认为png。

quality(int):图像的质量,在0-100之间。不适用于png图像。

fullPage(bool):如果为true,请截取完整的可滚动页面。默认为False。

clip(字典):指定页面剪切区域的对象。此选项应包含以下字段:

x (int):剪辑区域左上角的x坐标。

y (int):剪辑区域左上角的y坐标。

width (int):剪切区域的宽度。

height (int):剪切区域的高度。

omitBackground (bool):隐藏默认的白色背景并允许捕获具有透明度的屏幕截图。

5.保存pdf

pdf(dict)

返回: 返回生成的PDF bytes对象。

path (str):保存PDF的文件路径。
scale(float):网页渲染的比例,默认为1。
displayHeaderFooter(bool):显示页眉和页脚。默认为False。
headerTemplate(str):打印标题的HTML模板。应该是有效的HTML标记与以下类。
date:格式化的打印日期
title:文件名
url:文件位置
pageNumber:当前页码
totalPages:文档中的总页数
footerTemplate(str):打印页脚的HTML模板。应该使用相同的模板headerTemplate。
printBackground(bool):打印背景图形。默认为 False。
landscape(bool):纸张方向。默认为False。
pageRanges(字符串):要打印的纸张范围,例如“1-5,8,11-13”。默认为空字符串,表示所有页面。
format(str):纸张格式。如果设置,优先于 width或height。默认为Letter。
width (str):纸张宽度,接受标有单位的值。
height (str):纸张高度,接受标有单位的值。
margin(字典):纸张边距,默认为None。
top (str):上边距,接受标有单位的值。
right (str):右边距,接受标有单位的值。
bottom (str):底部边距,接受标有单位的值。
left (str):左边距,接受标有单位的值。

6.获取内容

content()

页面文本

print(await page.evaluate('document.body.textContent', force_expr=True)) 这样也行

cookies()

页面cookies

title()

标题

7.获取元素

返回都是ElementHandle或者None

print(await page.querySelector('div选择器'))    #获取第一个
print(await page.querySelectorAll("CSS选择器"))  #获取全部

querySelectorEval('css选择器','js_str','前面js需要的参数')  #获取第一个并对其执行js
querySelectorAllEval('css选择器','js_str','前面js需要的参数') #获取全部并对其执行js

await page.xpath('xpath选取器')

8.等待方式

# await page.waitForXPath('h3', timeout=300)
# await page.waitForNavigation(waitUntil="networkidle0")
# await page.waitForFunction('document.getElementByTag("h3")')
# await page.waitForSelector('.t')
# await page.waitFor('document.querySelector("#t")')
# await page.waitForNavigation(waitUntil='networkidle0')
# await page.waitForFunction('document.querySelector("").inner‌​Text.length == 7')

9.获取ElementHandle里的属性或者文本

await (await ElementHandle_obj.getProperty('属性')).jsonValue()
await (await ElementHandle_obj.getProperty('textContent')).jsonValue()  #文本

10.与浏览器交互

request_html中render操

可以参考这个应为request_html就是封装了pyppeteer

免责声明:文章转载自《python-pyppeteer模块使用汇总》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇Python之Numpy:二元函数绘制/三维数据可视化/3D3Dslicer_MarkupsModule下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

随便看看

字符串解压缩类库(zip、GZIP、QuickLz、snappy、lzf、jzlib)介绍

它旨在提供高压缩速度和合理的压缩比=-1){out.write;}字节[]未压缩=输出。到字节数组();--返回提取字符串的字节数组。介绍使用预先选择的解压缩类库-GZIP压缩字符串=“这是一个用于测试的字符串”;ByteArrayOutputStreamout=新的ByteArray输出流();GZipOutputStreamgout=newGZipOut...

CommonJS规范

NodeJS是本规范的实现。环境、运行、JSGILocaland远程包和包管理关于每个子规范的具体定制进度,请参考官方网站描述:Apache CouchDB和node.js。然而,这些项目中的大多数只实现了CommonJS的一些规范。具体项目及实施请参见官方网站描述:http:...

flutter 蓝牙开发记录

返回设备ID列表//您可以提前注册以扫描收听事件FlutterBlueflatterBlue=FlutterBlue。例子输出到uisetState((){this._blueDevice.add(r);防止多个扫描操作报告错误)FlutterBlueflatterBlue=FlutterBlue.instance;...

mac 安装xcode命令行工具

重印:https://segmentfault.com/a/1190000018045211?utm_source=tag-Newest1.启动终端,输入命令:xcode select--install,然后一直单击install。2.安装成功后,输入命令:gcc-v以检查是否成功。如果在第一步中报告了错误,提示为:xcode select:error:co...

Ansible-Tower--安装配置及破解

Ansible-Tower是将ansible的指令界面化,简明直观,简单易用。2)Ansibke-tower其实就是一个图形化的任务调度,复杂服务部署,IT自动化的一个管理平台,属于发布配置管理系统,支持Api及界面操作,Django编写。3)Ansible-tower可以通过界面从github拉取最新playbook实施服务部署,提高生产效率。...

vue升级Babel支持可选链和合并空值运算符

据我所知,无论是webpack项目还是vite项目都需要使用到babel来编译文件。currentItem:tips;}//template使用传入对应的取值地址:string{{text_filter}}其他可玩的ES新特性通过babel的官网,我们可以看到babel支持的"ES新特性"参考:babeljs.io/docs/en/plu…挑几个有意思的说明...