抓取网页报403错误,爬虫解决403禁止访问错误方法

摘要:
抓取网页报403错误,爬虫解决403禁止访问错误方法一般就是被禁止了,加上对应的header参数就可以了,要具体分析正常访问时需要那些头信息其中User-Agent是浏览器特有的属性,通过浏览器F12调试器就可以看到以下是Python示例,java也类似req.add_header("User-Agent","Mozilla/5.0(WindowsNT6.3;WOW64)AppleWebKit/5

抓取网页报403错误,爬虫解决403禁止访问错误方法

一般就是被禁止了,加上对应的header参数就可以了,要具体分析正常访问时需要那些头信息
其中User-Agent是浏览器特有的属性,通过浏览器F12调试器就可以看到

以下是Python示例,java也类似

req.add_header("User-Agent","Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36")
req.add_header("GET",url)
req.add_header("Host","blog.xxx.net")
req.add_header("Referer","http://www.xxx.net/")

获取浏览器类型的User-Agent信息,在自定义函数中需要写出自己的Host,Referer,GET信息等,
解决这几个问题,就可以顺利访问了,不再出现403禁止访问了
如果访问频率过快的话,需要用到代理IP的方法。

免责声明:文章转载自《抓取网页报403错误,爬虫解决403禁止访问错误方法》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇AFO(Away From OI) —— 记我的 OI 生涯C#实现打印与打印预览功能下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

python爬虫学习笔记(二十七)-Splash的使用

1. Splash介绍 Splash是一个JavaScript渲染服务,是一个带有HTTP API的轻量级浏览器,同时它对接了Python中的Twisted和QT库。利用它,我们同样可以实现动态渲染页面的抓取 2. 安装 2.1 安装docker 2.2 拉取镜像 docker pull scrapinghub/splash 2.3 用docker运行s...

带你由浅入深探索webpack4(一)

 相信你或多或少也听说过webpack、gulp等这些前端构建工具。近年来webpack越来越火,可以说成为了前端开发者必备的工具。如果你有接触过vue或者react项目,我想你应该对它有所了解。 这几天我重新整理了一下webpack中知识点,把一些常用到的总结出来,希望能帮助到大家以及加深自己对webpack的理解。 (由于我在写这篇文章的时候webpa...

Nginx系列一:正向代理和反向代理、Nginx工作原理、Nginx常用命令和升级、搭建Nginx负载均衡

转自https://www.cnblogs.com/leeSmall/p/9351343.html 仅供个人学习 一、什么是正向代理、什么是反向代理 1. 正向代理,意思是一个位于客户端和原始服务器(origin server)之间的服务器,为了从原始服务器取得内容,客户端向代理发送一个请求并指定目标(原始服务器),然后代理向原始服务器转交请求并将获得的内...

HTTP 1.1 中TransferEncoding chunked编码 | haohtml's blog

HTTP 1.1 中Transfer-Encoding chunked编码 | haohtml's blog HTTP 1.1 中Transfer-Encoding chunked编码Posted on 2010/07/24 by admin 大多数的站点相应用户请求时发送的HTTP Headers中包含Content-Length头.此头信息定义在HT...

Android-设置PullToRefresh下拉刷新样式

Android-设置PullToRefresh下拉刷新样式  以下是开源控件PullToRefresh的自定义样式属性: <?xml version="1.0" encoding="utf-8"?> <resources> <declare-styleable name="PullToRefresh"> &l...

H264 NALU 使用PS封装 RTP发送

最近由于项目平台需求,要将H264 NALU封装为PS再用RTP发送,PS封装按照ISO DEC-13818-1标准。一个PS包包含PS Header, PES Header, PS system header, PS system map等。 针对H264做如下PS封装: 1、每个IDR NALU前一般都会包含SPS、PPS等NALU,因此将SPS、P...