python 简单图像识别--验证码

摘要:
Python简单图像识别——记录验证代码后,准备和安装过程非常麻烦。代码:#coding=utf-8fromPILimportImageinportpytesseractionimage=图像。openorange=pytesseract image_to_stringprintorange的下一篇文章将编写一个小脚本来自动识别验证码并实现自动登录。Python简单图像识别——验证码II在实现自动登录时,我们首先需要识别验证码。上一篇文章讨论了如何识别验证码。首先在这里记录,并尝试在晚上用识别码编写自动登录的脚本。Python简单图像识别——验证码Ⅲ实现自动登录网站和学校图书馆管理系统为例,做一个简单的例子。

python  简单图像识别--验证码

记录下,准备工作安装过程很是麻烦。

首先库:pytesseract,image,tesseract,PIL

windows安装PIL,直接exe进行安装更方便(https://files.cnblogs.com/files/Oran9e/PILwin64.zip)(https://files.cnblogs.com/files/Oran9e/PILwin32.zip)

安装 image:pip install image

安装 pytesseract:pip install pytesseract

安装 tesseract:pip install tesseract  (安装 tesseracr,这里是个坑,需要安装到C盘里C:Program Files (x86)Tesseract-OCR,也就是默认路径 ,不然运行 python 代码的时候调用不了 tesseract.exe )

修改 tesseract.py 代码:pythonLibsite-packagespytesseract esseract.py

tesseract_cmd 改成 tesseract.exe的路径,进行调用。

tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe'

准备完上面的工作,基本上就可以进行简单的验证码识别了。

代码:

#coding=utf-8
from PIL import Image
import pytesseract
image = Image.open('2.jpg')
orange = pytesseract.image_to_string(image)
print orange

 python 简单图像识别--验证码第1张

python 简单图像识别--验证码第2张

下篇文章将会写个自动识别验证码,实现自动登陆的小脚本。

python  简单图像识别--验证码Ⅱ

在实现自动登陆的时候,我们首先需要做到识别验证码,上篇文章讲到如何识别验证码(http://www.cnblogs.com/Oran9e/p/8799194.html)。

一般情况下,我们见到的验证码是服务器动态生成的,这个时候我们要做的就是把验证码下载到本地,然后就可以像上篇文章一样进行识别,为自动登陆打下坚实的基础。

下面就记下困扰我两天的问题,把坑说明一下。

本来是想把 cnvd 的验证码进行下载识别(http://www.cnvd.org.cn/jcaptcha/jpeg/imageCaptcha?id=1523686908)

但是 cnvd 的网站是有反爬虫机制的,打印下 get 到的内容,是<script>***</script>  js 代码,因此我认为是不能直接下载的,当然也存在右键另存为了哈。

对比下两个链接打印出来的内容(http://lab1.xseclab.com/vcode7_f7947d56f22133dbc85dda4f28530268/vcode.php)

python 简单图像识别--验证码第3张

python 简单图像识别--验证码第4张

上图可以看到,直接打印的内容是验证码图片的内容,因此这个时候我们可以进行下载,下载的时候是以二进制的方式展现,先保存到本地。

代码如下:

#coding=utf-8
from PIL import Image
import pytesseract
import requests
url = 'http://lab1.xseclab.com/vcode7_f7947d56f22133dbc85dda4f28530268/vcode.php'   #验证码URL
headers = {'User-Agent':"Mozilla/5.0 (Windows NT 6.3; Win64; x64; rv:56.0) Gecko/20100101 Firefox/56.0"}   #headers
url_get = requests.request("GET",url,headers=headers,verify=False)            #发送请求
img = url_get.content              #返回的数据以二进制的方式展现
with open('C:UserswwDesktopimageCaptcha.jpg',"wb") as f:        #选择保存图片路径和格式
	f.write(img)        #保存
image1 = Image.open("C:UserswwDesktopimageCaptcha.jpg")     #Image模块打开图片
output = pytesseract.image_to_string(image1)     #识别验证码
print str(output)     #打印验证码

 python 简单图像识别--验证码第5张

当然,下载验证码也不止上面的一种方式,也可以通过截图保存验证码进行识别。有兴趣可以试试。

先记录到这里,争取晚上写出识别验证码自动登陆的脚本。

python  简单图像识别--验证码Ⅲ

实现自动登陆网站

登录学校图书馆管理系统为例,做一个简单的例子。python识别简单的没有干扰的纯数字验证码还是可以的,但是识别字母数字再加上干扰因素,误报率很高,因此这个我是采用”人工识别“,人工输入。

首先得明白cookie的作用,cookie是某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据。因此我们需要用Cookielib模块来保持网站的cookie。

登录学校图书馆管理系统登陆(http://122.207.221.227:8080/opac/login),验证码(http://122.207.221.227:8080/kaptcha/goldlib)

可以发现这个验证码是动态更新的每次打开都不一样,一般这种验证码和cookie是同步的。想识别验证码肯定是吃力不讨好的事,因此我们的思路是首先访问验证码页面,保存验证码、获取cookie用于登录,然后再直接向登录地址post数据。

先分析登录页面需要post的request和header信息

python 简单图像识别--验证码第6张

python 简单图像识别--验证码第7张

从中可以看出需要 post 的url并不是访问的页面,而是(http://122.207.221.227:8080/pages/include/checklogin.jsp)

其中需要提交的表单数据中 username 和 password 分别用户名和密码。

分析了上面的因素,下面就直接贴出代码。

#coding=utf-8
from PIL import Image
import pytesseract
import urllib2
import urllib
import PIL.ImageOps
import requests
import cookielib
import re
import sys
'''图书馆登陆'''
reload(sys)
sys.setdefaultencoding("utf-8")  #防止中文报错
url = 'http://122.207.221.227:8080/pages/include/checklogin.jsp'
capchaurl = 'http://122.207.221.227:8080/kaptcha/0.5458022691509324'
cookie = cookielib.CookieJar()   # 将cookies绑定到一个opener  cookie由cookielib自动管理
handler = urllib2.HTTPCookieProcessor(cookie)
opener = urllib2.build_opener(handler)
username='xxxxx'
password='xxxxx'  #用户名,密码
callNo = 'callNo'
picture = opener.open(capchaurl).read()   # 用openr访问验证码地址,获取cookie
local = open('C:UserswwDesktopgoldlib.jpg',"wb")   # 保存验证码到本地
local.write(picture)
local.close()
secrecode = raw_input('yanzhengma: ')   # 输入验证码
postData = {
    'username': username,
	'password': password,
	'loginType': callNo,
	'kaptcha': secrecode,
}   # 抓包信息 构造表单
headers = {
    'Accept': '*/*',
	'Accept-Encoding': 'gzip, deflate',
	'Accept-Language': 'zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2',
	'Connection': 'keep-alive',
	'Content-Length': '64',
	'Content-Type': 'application/x-www-form-urlencoded',
	'Host': '122.207.221.227:8080',
	'Referer': 'http://122.207.221.227:8080/opac/login',
	'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; Win64; x64; rv:59.0) Gecko/20100101 Firefox/59.0',
	'X-Requested-With': 'XMLHttpRequest',
}   # 根据抓包信息 构造headers
data = urllib.urlencode(postData)  # 生成post数据 ?key1=value1&key2=value2的形式
request = urllib2.Request(url,data,headers)  #构造request请求
try:
	response = opener.open(request)
	result = response.read().decode('utf-8')
	print result
except urllib2.HTTPError, e:
	print e.code

 演示结果

python 简单图像识别--验证码第8张

任重而道远!

转载请注明链接(http://www.cnblogs.com/Oran9e/p/8847313.html)。

免责声明:文章转载自《python 简单图像识别--验证码》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇Android中WebView使用总结c++11の关联容器下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

【python】获取高德地图省市区县列表

项目中需要用省市区来进行检索,原想高德地图肯定会有API来获得这些数据,结果没有找到,有一个接口好像可以用,但是会附带大量的边界坐标点。 所以就不如自己把高德的省市区列表扒下来,自己写接口来完成这个功能。 看到高德地图的js的demo里面有这样的展示页面:http://lbs.amap.com/api/javascript-api/example/u/20...

Scrapy 框架 入门教程

Scrapy入门教程 在本篇教程中,我已经安装好Scrapy 本篇教程中将带您完成下列任务: 创建一个Scrapy项目 定义提取的Item 编写爬取网站的 spider 并提取 Item 编写 Item Pipeline 来存储提取到的Item(即数据) 创建项目 在开始爬取之前,您必须创建一个新的Scrapy项目。 进入您打算存储代码的目录中,运行...

python文件路径分隔符的详细分析

写了挺久的python,文件分隔符的掌握肯定是必须的,但是我之前写的都是不规范的文件路径分隔符,例如‘’C:User emppython.txt’,一直都没有报过错。也不知为啥,今天查阅资料才知道自己写的都是些假的python,所以就在此记录一下。 主要是需要考虑分隔符的问题:在Windows系统下的分隔符是: (反斜杠)。 在Linux系统下的分隔符是:...

Python小数向上取整和向下取整

Python小数向上取整和向下取整 首先需要导入math模块 import math 小数向上取整使用ceil函数 import mathf_num = 3.1 f_num = math.ceil(f_num) print(f_num) 小数向下取整使用floor函数 import math d_num = 3.9 d_num = math.floor...

机器学习基础:(Python)训练集测试集分割与交叉验证

在上一篇关于Python中的线性回归的文章之后,我想再写一篇关于训练测试分割和交叉验证的文章。在数据科学和数据分析领域中,这两个概念经常被用作防止或最小化过度拟合的工具。我会解释当使用统计模型时,通常将模型拟合在训练集上,以便对未被训练的数据进行预测。 在统计学和机器学习领域中,我们通常把数据分成两个子集:训练数据和测试数据,并且把模型拟合到训练数据上,以...

Python 数据库连接池 DBUtils

安装 pip install DBUtils 使用 import threading import pymysql from DBUtils.PooledDB import PooledDB POOL = PooledDB( creator=pymysql, # 使用链接数据库的模块 maxconnections=20, # 连...