当爬虫被拒绝时(Access Denied)

摘要:
结果在爬了大约3万个页面的时候,对方发回AccessDenied。等一段时间后再启动爬虫,结果还是AccessDenied。每个浏览器,每个正规的爬虫都有其固定的useragent,因此只要将这个字段改为这些知名的useragent,就可以成功伪装了。查完后,就可以登陆,具体如下所示DefaultHttpClienthttpclient=newDefaultHttpClient();HttpPostpostMethod=newHttpPost;//注意用post//登陆博客园所需要的参数Listnvps=newArrayList();nvps.add;nvps.add;nvps.add;nvps.add;nvps.add;nvps.add;nvps.add;nvps.add;nvps.add;postMethod.setEntity;HttpResponseresponse=httpclient.execute;由于httpClient会自动管理cookie,所以接下来直接get或者post就行了。

由于要准备测试数据,不得不大量爬取某个网站的内容。为了防止被封,特意将爬虫设计为单线程同步的爬虫。结果在爬了大约3万个页面的时候,对方发回Access Denied。等一段时间后再启动爬虫,结果还是Access Denied。这时才明白这样的想法太天真了,当初就应该找其它方法来避免才对。而本文则记述了这些其它方法。

1. 伪装user agent

User agent 是HTTP协议的中的一个字段, 其作用是描述发出HTTP请求的终端的一些信息。 服务器通过这个字段就可以知道要访问网站的是什么人了。每个浏览器,每个正规的爬虫都有其固定的user agent,因此只要将这个字段改为这些知名的user agent,就可以成功伪装了。不过,不推荐伪装知名爬虫,因为这些爬虫很可能有固定的IP,如百度爬虫。与此相对的,伪装浏览器的user agent是一个不错的主意,因为浏览器是任何人都可以用的,换名话说,就是没有固定IP。推荐准备若干个浏览器的user agent,然后每次发送请求的时候就从这几个user agents中随机选一个填上去。IE的几个user agent如下:

Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0)
Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.2)
Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)

设置代码如下(假设使用JAVA + HttpClient 4.1.2)

HttpGet getMethod = new HttpGet("URL");
getMethod.setHeader("User-Agent", "user agent内容");

2. log in

虽然有些网站不登陆就能访问,但是它一检测到某IP的访问量有异常,就会马上提出登陆要求。如果是不带验证码的,那么果断登陆吧。不过,在登陆之前要做些准备——查清楚POST登陆请求时要附带哪些参数。我的做法是先用badboy录制登陆过程,然后将这一过程导出为jmeter文件,最后用jmeter查看登陆所需的参数。查完后,就可以登陆,具体如下所示

复制代码
        DefaultHttpClient httpclient = newDefaultHttpClient();
        HttpPost postMethod = new HttpPost("http://passport.cnblogs.com/login.aspx");    //注意用post
        
        //登陆博客园所需要的参数
        List<NameValuePair> nvps = new ArrayList<NameValuePair>(); 
        nvps.add(new BasicNameValuePair("tbUserName", "风炎"));  
        nvps.add(new BasicNameValuePair("tbPassword", "zero"));
        nvps.add(new BasicNameValuePair("btnLogin", "登  录"));
        nvps.add(new BasicNameValuePair("__EVENTTARGET", ""));
        nvps.add(new BasicNameValuePair("__EVENTARGUMENT", ""));
        nvps.add(new BasicNameValuePair("__VIEWSTATE", "/wEPDwULLTE1MzYzODg2NzZkGAEFHl9fQ29udHJvbHNSZXF1aXJlUG9zdEJhY2tLZXlfXxYBBQtjaGtSZW1lbWJlcm1QYDyKKI9af4b67Mzq2xFaL9Bt"));
        nvps.add(new BasicNameValuePair("__EVENTVALIDATION", "/wEWBQLWwpqPDQLyj/OQAgK3jsrkBALR55GJDgKC3IeGDE1m7t2mGlasoP1Hd9hLaFoI2G05"));        
        nvps.add(new BasicNameValuePair("ReturnUrl", "http://www.cnblogs.com/"));
        nvps.add(new BasicNameValuePair("txtReturnUrl", "http://www.cnblogs.com/"));
        
        postMethod.setEntity(newUrlEncodedFormEntity(nvps, HTTP.UTF_8));  
        HttpResponse response = httpclient.execute(postMethod);    
复制代码

由于httpClient会自动管理cookie,所以接下来直接get或者post就行了。

3. 使用代理

如果对方用某段时间内某IP的访问次数来判定爬虫,然后将这些爬虫的IP都封掉的话,以上伪装就失效了。对方的这个思路隐含着一个假设:爬虫的访问量必然比正常用户的大很多,因而只要使这个假设不成立就可以了。这时就该代理上场了。所谓代理就是介于用户与网站之间的第三者:用户先将请求发到代理,然后代理再发到服务器,这样看起来就像是代理在访问那个网站了。这时,服务器会将这次访问算到代理头上。同时用多个代理的话,单个IP的访问量就降下去了,于是就有可能逃过一劫。不过,这个方法最大的问题就是找到稳定的代理(有钱买代理的,可以无视这句话)。我目前是在无忧代理找,但找到的大部分都不能用,少部分能用的也不稳定。求分享好用的免费代理。

假设找到/买了N个代理,那么要如何管理这些代理呢?我的想法是做一个类似于内存池的IP池。这样做的好处是便于管理以及易于扩展。当只有一个代理时,其用法如下所示

复制代码
        DefaultHttpClient httpclient = newDefaultHttpClient();
        
        //此代理不保证你看到的时候还存活
        HttpHost proxy = new HttpHost("u120-227.static.grapesc.cz", 8080);
        httpclient.getParams().setParameter(ConnRoutePNames.DEFAULT_PROXY,proxy);
        
        //如果代理要认证,则加上以下语句
//httpclient.getCredentialsProvider().setCredentials(new AuthScope("proxy adress", proxy port),   
//new UsernamePasswordCredentials("username", "password"));   
        
        //记得将网址拆成以下形式
        HttpHost targetHost = new HttpHost("www.cnblogs.com");    //网站名前面不要加http:// 
        HttpGet httpget = new HttpGet("/FengYan/");
        
        HttpResponse response = httpclient.execute(targetHost, httpget); 
复制代码

补充下,如果是ADSL拨号,那么无需担心被封IP,因为一般来说,当你重新拨号时,你会得到一个不一样的IP。

4. 降低访问频率

如果说找不到又免费又稳定的代理呢?那只好用最后一招了——降低访问频率。这样做可以达到与用代理一样的效果——防止被对方从访问量上看出来。当然,在抓取效率上会差很多。此外,降低访问频率只是一个指导思想,在这个思想下,可以得到很多具体做法,例如:每抓取一个页面就休息随机秒(个人感觉比固定时间的要好);限制每天抓取的页面数量。

5. 总结

防止被封的“理”是伪装成正常用户,只要按着这个“理”走,总能找到具体的“法”。虽说如此,对于一个接触爬虫不久的小白,例如在下,是很难知道正常用户访问一个网站时的所有细节的。因此,知道些反爬虫的“法”,然后有针对地进行拆招还是十分必要的。描述反爬的“法”的文章,推荐“互联网网站的反爬虫策略浅析

分类:杂文

免责声明:文章转载自《当爬虫被拒绝时(Access Denied)》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇华为3Com Quidway 2116SI热点 | 四月最佳Github项目库与最有趣Reddit热点讨论下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

随便看看

TCP流量控制和拥塞控制

第一个问题是收割台中的流量控制。TCP使用滑动窗口机制。第二个问题是报头中的拥塞控制。在具有不同网络速度的机器进行通信的环境中,拥有流量控制机制非常重要。...

嵌入式linux GUI--DirectFB + GTK至尊秘笈

我开始在x86上构建GTK环境。首先,我选择了最新版本。然后,我看到了GTK在帧缓冲区上以两种模式运行的介绍:DirectFB和linuxfb,而Linuxfb项目似乎已经停止。主要方向是DirectFB。后来,我找到了一个DirectFB+GTK的英文文档,它基本上使用了最新版本。许多软件包可以使用系统自己的,因此您可以编译必要的源代码。一开始,编译并不成...

[npm CLI文档]配置NPM:package-lock.json

包装锁。json和npm shrink-wrap json将两个文件以相同的格式进行比较,并在项目的根目录中执行类似的功能。不同之处在于包锁Json无法发布,如果在根目录之外的任何位置找到它,就会被忽略。隐藏的锁定文件避免重复处理nodes_Modules文件夹。从v7开始,npm使用node_modules/.package锁。json中的“隐藏”锁文件。...

微软新一代输入法框架 TSF

目前,市场上的非微软中文输入法基本上只实现IMM框架。自Windows XP开始以来,Windows提供了一个基于COM的新输入框架TSF。但是,Windows Vista和Windows 7用户也可以使用各种基于IMM的输入方法,因为Windows提供了一个组件来将所有TSF请求转换为IMM API。很可能,因为Win8下的许多Imm函数无法使用。)根据微...

uni-app 安卓和IOS更新方案

热更新资源,即重新安装应用程序,并更新js等前端代码。Android平台更新方案,详见上一篇文章https://www.cnblogs.com/tiandi/p/15331522.html二、2015年,IOS平台苹果发布了一项规定,禁止用户在应用程序中被提示进行版本更新。无法直接更新通用iOSAppstore的安装包。应用程序启动后,检查是否有新版本,该版...

【译】颜色空间 REC.709 vs sRGB的

但转换函数(gamma)不同。让我们先定义颜色空间。颜色模型和颜色空间非常混乱。RGB颜色模型表示所有颜色都可以通过RGB的线性组合获得,而颜色空间是指能够解析数值的颜色模型。颜色空间的定义包含以下信息。颜色空间可以基于RGB模型检测颜色,因此使用三原色来表示所有颜色似乎是合理的。三原色的颜色坐标与sRGB相同。...