python爬虫(2)——urllib、get和post请求、异常处理、浏览器伪装

摘要:
“Dld.html”)urlcleanup()清除缓存urllib。要求urlcleanup()info()查看Web简介文件=urllib。要求urlopen(“http://www.baidu.com“)print(file.getcode())geturl()获取urlfile=urllib.request.urlopen(”http:
urllib基础

urlretrieve()

urlretrieve(网址,本地文件存储地址) 直接下载网页到本地

import urllib.request
#urlretrieve(网址,本地文件存储地址) 直接下载网页到本地
urllib.request.urlretrieve("http://www.baidu.com","dld.html")

urlcleanup()

清除缓存

urllib.request.urlcleanup()

info()

查看网页简介

file=urllib.request.urlopen("http://www.baidu.com")
print(file.info())

getcode()

输出网页爬取状态码,200为正常,其他都不正常

file=urllib.request.urlopen("http://www.baidu.com")
print(file.getcode())

geturl()

获取当前访问的网页的url

file=urllib.request.urlopen("http://www.baidu.com")
print(file.geturl())
超时设置

timeout设置为多少秒才判断超时

import urllib.request
for i in range(1000):
    try:
        file = urllib.request.urlopen("https://www.cnblogs.com/mcq1999/", timeout=1)
        print(len(file.read().decode("utf-8")))
    except Exception as e:
        print("出现异常")
        
自动模拟HTTP请求

get请求

模拟百度搜索python:

import urllib.request
import re
keywd="python"
url="http://www.baidu.com/s?wd="+keywd
data=urllib.request.urlopen(url).read().decode("utf-8")
pat='{"title":"(.*?)",'
res=re.compile(pat).findall(data)
print(res)

关键字为中文:

import urllib.request
import re
keywd="百度"
keywd=urllib.request.quote(keywd) #如果有中文
url="http://www.baidu.com/s?wd="+keywd
data=urllib.request.urlopen(url).read().decode("utf-8")
pat='{"title":"(.*?)",'
res=re.compile(pat).findall(data)
print(res)

提取前1~10页:

import urllib.request
import re
keywd="百度"
keywd=urllib.request.quote(keywd) #如果有中文
# 页码公式:page=(num-1)*10
for i in range(1,11):
    url="http://www.baidu.com/s?wd="+keywd+"&pn="+str((i-1)*10)
    data=urllib.request.urlopen(url).read().decode("utf-8")
    pat='{"title":"(.*?)",'
    res=re.compile(pat).findall(data)
    for j in range(len(res)):
        print(res[j])

post请求

python爬虫(2)——urllib、get和post请求、异常处理、浏览器伪装第1张

import urllib.request
import urllib.parse
posturl="https://www.iqianyue.com/mypost"
postdata=urllib.parse.urlencode({
    "name":"mcq@163.com",
    "pass":"123456",
}).encode("utf-8")
#进行post,需要使用urllib.request下面的Request(真实post地址,post数据)
req=urllib.request.Request(posturl,postdata)
res=urllib.request.urlopen(req).read().decode("utf-8")
print(res)
fh=open("post.html","w")
fh.write(res)

python爬虫(2)——urllib、get和post请求、异常处理、浏览器伪装第2张

爬虫的异常处理

如果没有异常处理,爬虫遇到异常时就会直接崩溃停止运行,下次再次运行时,又会从头开始,所以,要开发一个具有顽强生命力的爬虫,必须要进行异常处理。

常见状态码及含义

python爬虫(2)——urllib、get和post请求、异常处理、浏览器伪装第3张

HTTPError和URLError

两者都是异常处理的类,HTTPError是URLError的子类,HTTPError有异常状态码与异常原因,URLError没有异常状态码,所以在处理的时候,不能使用URLError直接代替HTTPError。如果要代替,必须要判断是否有状态码属性。

URLError出现的原因:

  1. 连不上服务器
  2. 远程url不存在
  3. 无网络
  4. 触发HTTPError
import urllib.request
import urllib.error
for i in range(20):
    try:
        urllib.request.urlopen("https://www.cnblogs.com/mcq1999/p/python_Crawler_1.html")
        print("gg")
    except urllib.error.URLError as e:
        if hasattr(e,"code"):
            print(e.code)
        if hasattr(e,"reason"):
            print(e.reason)
浏览器伪装技术

有的网站爬取的时候会返回403,因为对方服务器会对爬虫进行屏蔽。此时,我们要伪装成浏览器才能爬取。

浏览器伪装一般通过报头实现。

python爬虫(2)——urllib、get和post请求、异常处理、浏览器伪装第4张

由于urlopen()对于一些HTTP的高级功能不支持,所以要修改报头,可以使用urllib.request.build_opener()或urllib.request.Request()下的add_header()实现浏览器的模拟。

opener的全局安装在下面的糗事百科爬虫里有应用

import urllib.request
url="https://blog.csdn.net/"
#头文件格式header=("User-Agent",具体用户代理制)
headers=("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:68.0) Gecko/20100101 Firefox/68.0")
opener=urllib.request.build_opener()
opener.addheaders=[headers]
data=opener.open(url).read()
fh=open("ua.html","wb")
fh.write(data)
fh.close()
python新闻爬虫实战

需求:将新浪新闻首页所有新闻都爬倒本地

思路:先爬首页,通过正则表达式获取所有新闻链接,然后依次爬各新闻,并存储到本地

import urllib.request
import re
url="https://news.sina.com.cn/"
data=urllib.request.urlopen(url).read().decode("utf-8","ignore") #忽略有异常的编码
pat1='<a target="_blank" href="http://t.zoukankan.com/(.*?)"'
alllink=re.compile(pat1).findall(data)
for i in range(len(alllink)):
    thislink=alllink[i]
    urllib.request.urlopen(thislink).read().decode("utf-8","ignore")
    urllib.request.urlretrieve(thislink,"news/"+str(i)+".html")
糗事百科爬取

目标1:爬取糗事百科首页的内容(包括视频、图片)

涉及伪装浏览器、opener安装为全局等知识

import urllib.request
import re
url="https://www.qiushibaike.com/"
#测试是否需要伪装浏览器
try:
    urllib.request.urlopen(url)
except Exception as e:
    print(e)
#显示Remote end closed connection without response,要伪装
headers=("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:68.0) Gecko/20100101 Firefox/68.0")
opener=urllib.request.build_opener()
opener.addheaders=[headers]
urllib.request.install_opener(opener) #安装为全局
data=urllib.request.urlopen(url).read().decode("utf-8","ignore")
pat='<a   href="http://t.zoukankan.com/(.*?)"'
alllink=re.compile(pat).findall(data)
for i in range(len(alllink)):
    realurl=url+alllink[i]
    print(realurl)
    urllib.request.urlretrieve(realurl,"糗事百科/"+str(i)+".html")

目标2:爬取1~10页的文章

import urllib.request
import re
headers=("User-Agent","Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:68.0) Gecko/20100101 Firefox/68.0")
opener=urllib.request.build_opener()
opener.addheaders=[headers]
urllib.request.install_opener(opener) #安装为全局
for i in range(10):
    thisurl="https://www.qiushibaike.com/text/page/"+str(i+1)+"/";
    data=urllib.request.urlopen(thisurl).read().decode("utf-8","ignore")
    pat='<div class="content">.*?<span>(.*?)</span>.*?</div>'
    res=re.compile(pat,re.S).findall(data)
    for j in range(len(res)):
        print(res[j])
        print('---------------------')

免责声明:文章转载自《python爬虫(2)——urllib、get和post请求、异常处理、浏览器伪装》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇在 Windows Phone上使用QQConnect OAuth2路由协议基础下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

vue的坑

1. (vue2.x以上,1.x没有问题)vue和jq一起使用的冲突:在使用了v-bind: class的元素上,当vue和jq都需要增改class时,用jq加的属性可能无效。 原因:当数据的布尔值改变后(比如某个class需要加上),由于vue是在本次事件轮结束后更新DOM或改变属性,而jq的addClass是同步的,所以jq加上的类名会被vue覆盖。...

链表的基础操作1

1.链表的重要操作 我们知道,链表的基础单位是一个个节点,那么第一步便是创建节点。 struct node{ typename data; //typename data 这里是数据域 node* next ; //指针域 }; 有一点要注意的是在C++中,是可以直接使用node的,而在C语言中,则需要使用struct node 不然会显示...

knockout前端经常用的功能

1.表单序号自增长 data-bind="text:$index()+1" 2.日期格式显示 datetime:字段名 3.实用的判断 <--  ko if: 判断条件 --> //代码块 <-- /ko --> 4.foreach循环,一般用于表格tbody使用遍历集合,形成列表 <tbody data-bind="fore...

使用 Python 的 SQLite JSON1 和 FTS5 扩展

早在九月份,编程界出现一个名为 json1.c 的文件,此前这个文件一直在 SQLite 的库里面。还有,笔者也曾总结通过使用新的 json1 扩展来编译 pysqlite 的技巧。但现在随着 SQLite 3.9.0 的发布,用户已经不用再费那么大劲了。 SQLite 3.9.0 版本做了很大的升级,不仅增加了万众期待的 json1 扩展,还增加了具有...

离群点的检验

  离群点检测是发现与大部分其他对象显著不同的对象。大部分数据挖掘都将这种差异信息视为噪声而丢弃,然而在一些应用中,异常点数据可能蕴含着更大的研究价值。 应用:电信和信用卡的诈骗检测、贷款审批、电子商务、网络入侵和天气预报等领域。例如,可以利用离群点检测分析运动员的统计数据,来发现异常的运动员。 离群点的成因: 数据来源于不同的类、自然变异、数据测量、收集...

数据输入——生成你需要的echart图(世界地图,气泡图)

上一篇文章介绍了:堆积柱状图、扇形图、嵌套环形图,现在来介绍一下:世界地图和气泡图 1.世界地图 http://echarts.baidu.com/examples/editor.html?c=map-world-dataRange 这个就不多做介绍了,大家看图就可以了,颜色越深表示value越大,白色表示data中没有这个国家。 2.气泡图 按照这张...