免二次请求,selenium直接保存图片元素到本地

摘要:
varheaders=响应.headers;==null){contentType=ct.split(';reader.onload=函数(e){resolve({'data':response.i});reader.oneror=拒绝;reader.readAsDataURL(blob);

Selenium是不少爬虫工程师都会用的一个工具,它对页面元素的属性,文本等的提取都做的不错,但有一个缺点是只能获取到img元素的链接而不是图片二进制(即便在访问时已经加载过了一次图片)。想把指定的img保存到本地,只能使用获取的链接手动下载,不仅多花费了不少时间,而且在某些限制外链的站点还可能遇到下载失败的情况。本文介绍一个直接在selenium中保存图片的方法。

原理其实有点取巧,是通过selenium的execute_script方法,注入一段脚本令网页所有img都转换为base64格式,如此一来图片的二进制信息就被编码为base64写在了<img>的src属性中。代码如下

js = """
        _fetch = function(i,src){
          return fetch(src).then(function(response) {
            if(!response.ok) throw new Error("No image in the response");
            var headers = response.headers;
            var ct = headers.get('Content-Type');
            var contentType = 'image/png';
            if(ct !== null){
              contentType = ct.split(';')[0];
            }
            
            return response.blob().then(function(blob){
              return {
                'blob': blob,
                'mime': contentType,
                'i':i,
              };
            });
          });
        };
        
        _read = function(response){
          return new Promise(function(resolve, reject){
            var blob = new Blob([response.blob], {type : response.mime});
            var reader = new FileReader();
            reader.onload = function(e){
              resolve({'data':e.target.result, 'i':response.i});
            };
            reader.onerror = reject;
            reader.readAsDataURL(blob);
          });
        };
        
        _replace = function(){
            for (var i = 0, len = q.length; i < len; i++) {imgs[q[i].item].src = q[i].data;}
        }
        
        var q = [];
        var imgs = document.querySelectorAll('img');
        for (var i = 0, len = imgs.length; i < len; i++) {
                _fetch(i,imgs[i].src).then(_read).then(function(data){
            q.push({
              'data': data.data,
              'item': data.i,
            });
          });
            }
        setTimeout(_replace, 1000 );
        """
driver.execute_script(js)

fetch方法请求图片时浏览器会自动读取本地缓存,所以不会发生网络通讯;_replace延迟1秒执行是为了等待队列加载完成。

在driver.get(URL)后执行此脚本,源代码中所有<img>即变为base64编码。再附上一段Python的base64转文件脚本

imgsrc = ""

import base64
def base64img2file(imgsrc: str):
    suffix = imgsrc.split(';')[0][11:]
    with open("demo."+suffix, 'wb') as f:
        f.write(base64.b64decode(imgsrc.split(',')[1]))

免责声明:文章转载自《免二次请求,selenium直接保存图片元素到本地》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇使用XmlWriter写Xml百度地图API图标、文本、图例与连线下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

js 事件委托 事件代理

JavaScript高级程序设计上解释:事件委托就是利用事件冒泡,只指定一个事件处理程序,就可以管理某一类型的所有事件。 通过例子类比: 有三个同事预计会在周一收到快递。为签收快递,有两种办法:一是三个人在公司门口等快递;二是委托给前台MM为签收。现实中,我们大都采用委托的方案。前台MM收到快递后,会判断收件人是谁,然后按照收件人的要求签收。这种方案的优势...

iOS设置启动页后的广告页

转载请注明出处!!! 很多app(如淘宝、美团等)在启动图加载完毕后,还会显示几秒的广告,一般都有个跳过按钮可以跳过这个广告,有的app在点击广告页之后还会进入一个广告页面,点击返回进入首页。就像下面的效果。这个功能现在很常见,那么它是如何实现的呢? 思路1.广告页加载思路。广告页的内容要实时显示,在无网络状态或者网速缓慢的情况下不能延迟加载,或者等到首...

防盗链原理

昨天去参加一个面试,面试官上来就问“知道防盗链吗?它是怎么实现的?”。当时立刻傻了,防盗链是什么东东? 百度百科对防盗链的定义是 此内容不在自己服务器上,而通过技术手段,绕过别人放广告有利益的最终页,直接在自己的有广告有利益的页面上向最终用户提供此内容。 常常是一些名不见经传的小网站来盗取一些有实力的大网站的地址(比如一些音乐、图片、软件的下载地址)然后放置...

CSS中背景图片定位方法

CSS中背景图片的定位,困扰我很久了。今天总算搞懂了,一定要记下来。 在CSS中,背景图片的定位方法有3种:   1)关键字:background-position: top left;   2)像素:background-position: 0px 0px;   3)百分比:background-position: 0% 0%; 上面这三句语句,都将...

h5语音播放(移动端)

<!--语音导航 start--> <div style="border:0px solid red;100%;height:72px;position:relative;overflow-y: hidden;"> <img src="http://t.zoukankan.com/static/front/images/vo...

UDP广播 与 TCP客户端 --服务端

       随着倒计时的响声,自觉无心工作,只想为祖国庆生。        最近有遇到过这样一个问题,将摄像头识别的行人,车辆实时显示在客户端中。有提供接口,会以Json的数据的形式将实时将识别的对象进行Post提交。所以我们这边先写一个web服务来持续接收数据,再将数据进行解析存入数据库。到这里为止,数据没有问题,都全部存入数据库中,这样还剩下一个实时...