HttpClient配置及运用(二)

摘要:
=null){System.out.println;InputStreaminputStream=httpEntity.getContent();FileUtils.copyToFile;//将图片保存在本次磁盘D盘,命名为xxx.png}closeableHttpResponse.close();closeableHttpClient.close();}}运行后,D盘里会增加一个图片文件。

4.获取响应状态Status信息、获取状态码Status Code

一般服务器的响应状态有以下几种:

200 正常

400 未找到页面

403 拒绝

500 服务器错误

比如我们请求bootstrap中文网,HttpClient配置及运用(二)第1张

我们现在代码中获取状态码:

public classDemo {
    public static void main(String[] args) throwsException {
        CloseableHttpClient closeableHttpClient=HttpClients.createDefault(); //1、创建实例
        HttpGet httpGet=new HttpGet("http://www.bootcss.com"); //2、创建请求
httpGet.setHeader("User-Agent", "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 Safari/537.36 SE 2.X MetaSr 1.0");
         
        CloseableHttpResponse closeableHttpResponse=closeableHttpClient.execute(httpGet); //3、执行
        HttpEntity httpEntity=closeableHttpResponse.getEntity(); //4、获取实体
System.out.println(closeableHttpResponse.getStatusLine()); //获取状态码
closeableHttpResponse.close();
        closeableHttpClient.close();
    }
}

运行结果:HTTP/1.1 200 OK

接下来我们访问一个不存在的页面:

HttpGet httpGet=new HttpGet("http://www.huimsoft.com/x/x.html");

运行结果:HTTP/1.1 404 Not Found

5.HttpClient请求服务器图片

我们先引入一个IO流相关的Jar包,

从apache下载

HttpClient配置及运用(二)第2张

之后引入项目

我们将请求的图片保存在本地磁盘

packagecom.zhi.httpClient3;
 
importjava.io.File;
importjava.io.InputStream;
 
importorg.apache.commons.io.FileUtils;
importorg.apache.http.HttpEntity;
importorg.apache.http.client.methods.CloseableHttpResponse;
importorg.apache.http.client.methods.HttpGet;
importorg.apache.http.impl.client.CloseableHttpClient;
importorg.apache.http.impl.client.HttpClients;
 
public classDemo {
    public static void main(String[] args) throwsException {
        CloseableHttpClient closeableHttpClient=HttpClients.createDefault(); //1、创建实例
        HttpGet httpGet=new HttpGet("http://static.bootcss.com/www/assets/img/codeguide.png?1505127079951"); //2、创建请求
CloseableHttpResponse closeableHttpResponse=closeableHttpClient.execute(httpGet); //3、执行
        HttpEntity httpEntity=closeableHttpResponse.getEntity(); //4、获取实体
         
        if(httpEntity!=null){
            System.out.println("ContentType:"+httpEntity.getContentType().getValue());
            InputStream inputStream=httpEntity.getContent();
            FileUtils.copyToFile(inputStream, new File("D://xxx.png")); //将图片保存在本次磁盘D盘,命名为xxx.png
}
             
        closeableHttpResponse.close();
        closeableHttpClient.close();
    }
}

运行后,D盘里会增加一个图片文件。

同理,jpg和gif也可以进行抓取后保存在本地。

6.使用代理IP、高匿IP、连接失败

我们使用代理IP就是因为某些站点会屏蔽我们的IP,所以我们要动态的更换代理IP。

其中我们首先选择国内的IP,国外的一般都比较慢,其次不要选择如{新疆乌鲁木齐}等这样的偏远地区,尽量选用一二线城市的IP

关于代理IP的话 也分几种透明代理、匿名代理、混淆代理、高匿代理

1、透明代理(Transparent Proxy)

REMOTE_ADDR = Proxy IP

HTTP_VIA = Proxy IP

HTTP_X_FORWARDED_FOR = Your IP

透明代理虽然可以直接“隐藏”你的IP地址,但是还是可以从HTTP_X_FORWARDED_FOR来查到你是谁。

2、匿名代理(Anonymous Proxy)

REMOTE_ADDR = proxy IP

HTTP_VIA = proxy IP

HTTP_X_FORWARDED_FOR = proxy IP

匿名代理比透明代理进步了一点:别人只能知道你用了代理,无法知道你是谁。

3、混淆代理(Distorting Proxies)

REMOTE_ADDR = Proxy IP

HTTP_VIA = Proxy IP

HTTP_X_FORWARDED_FOR = Random IP address

与匿名代理相同,如果使用了混淆代理,别人还是能知道你在用代理,但是会得到一个假的IP地址,伪装的更逼真。

4、高匿代理(Elite proxy或High Anonymity Proxy)

REMOTE_ADDR = Proxy IP

HTTP_VIA = not determined

HTTP_X_FORWARDED_FOR = not determined

可以看出来,高匿代理让别人根本无法发现你是在用代理,所以是最好的选择。

一般我们使用高匿的代理IP。

public classDemo {
    public static void main(String[] args) throwsException {
        CloseableHttpClient closeableHttpClient=HttpClients.createDefault(); //1、创建实例
        HttpGet httpGet=new HttpGet("http://www.bootcss.com/"); //2、创建实例
HttpHost proxy=new HttpHost("114.219.61.82", 8118);
        RequestConfig config=RequestConfig.custom().setProxy(proxy).build();
        httpGet.setConfig(config);
         
        CloseableHttpResponse closeableHttpResponse=closeableHttpClient.execute(httpGet); //3、执行
        HttpEntity httpEntity=closeableHttpResponse.getEntity(); //4、获取实体
         
        //System.out.println(httpEntity.toString());
        System.out.println(EntityUtils.toString(httpEntity, "utf-8")); //获取网页内容
closeableHttpResponse.close();
        closeableHttpClient.close();
    }
}

加入IP失效了,或者我们写错了端口号,

那么会输出连接失败信息

HttpClient配置及运用(二)第3张

7.连接超时(connect timed out)和读取超时(Read timed out)

设置连接超时和读取超时方法:

RequestConfig config=RequestConfig.custom()
                .setConnectTimeout(10000) //设置连接超时时间 10秒钟
                .setSocketTimeout(10000) //设置读取超时时间10秒钟
                .build();

HttpClient连接时间

所谓连接的时候

是HttpClient发送请求的地方开始到连接上目标url主机地址的时间,

理论上是距离越短越快,线路越通畅越快,但是由于路由复杂交错,往往连接上的时间都不固定,运气不好连不上,

HttpClient的默认连接时间,默认可能是1分钟,假如超过1分钟 过一会继续尝试连接,这样会有一个问题 假如遇到一个url老是连不上,会影响其他线程的线程进去,

所以我们有必要进行特殊设置,比如设置10秒钟 假如10秒钟没有连接上 我们就报错,这样我们就可以进行业务上的处理,

比如我们业务上控制 过会再连接试试看。并且这个特殊url写到log4j日志里去。方便管理员查看。

HttpClient读取时间

所谓读取的时间 是HttpClient已经连接到了目标服务器,然后进行内容数据的获取,一般情况 读取数据都是很快速的,

但是假如读取的数据量大,或者是目标服务器本身的问题(比如读取数据库慢,并发量大等...)也会影响读取时间。

我们还是需要来特殊设置下,比如设置10秒钟 假如10秒钟还没读取完,就报错,同上,我们可以业务上处理。

免责声明:文章转载自《HttpClient配置及运用(二)》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇虚拟化的发展历程和实现方式浏览器窗口之间传递数据下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

httpClient带一个或多个参数实现

 听课视频:https://www.bilibili.com/video/av68932809?p=5 思路分析:先创建httpClient对象,再通过URIBuilder对象根上网址,最后一步带上一个多个参数。 如何写一个HttpClient[1]——URI的处理   1核心代码分: //1:创建httpClient对象CloseableHttpClie...

HTTP 请求头中的 X-Forwarded-For

转自:https://imququ.com/post/x-forwarded-for-header-in-http.html HTTP 请求头中的 X-Forwarded-For 我一直认为,对于从事 Web 前端开发的同学来说,HTTP 协议以及其他常见的网络知识属于必备项。一方面,前端很多工作如 Web 性能优化,大部分规则都跟 HTTP、HTTPS、...

org.apache.commons.httpclient工具类

import org.apache.commons.httpclient.DefaultHttpMethodRetryHandler; import org.apache.commons.httpclient.HttpClient; import org.apache.commons.httpclient.HttpMethod; import org.ap...

练习--爬取xici可用代理IP

通过爬虫实现xici可以使用的代理IP 端口 主要代码: #!/usr/bin/env python #coding:utf8 import telnetlib from urllib import request import re class getXici(): def __init__(self): self.url...

JAVA发送HTTP请求方式

1. HttpURLConnection 使用JDK原生提供的net,无需其他jar包; HttpURLConnection是URLConnection的子类,提供更多的方法,使用更方便。 package httpURLConnection; import java.io.BufferedReader; import java.io.InputStrea...

HttpClientFactory 是 HttpClient 的正确使用方式

1.简介 它的组件包是Microsoft.Extensions.Http 复原HttpClient带来的问题 HttpClient相关问题 虽然HttpClient类实现了IDisposable,但不是首选在using语句中声明和实例化它,因为释放HttpClient对象时,基础套接字不会立即释放,这可能会导致“套接字耗尽”问题 。因此,HttpCli...