Java 网络爬虫获取页面源代码

摘要:
传统的爬虫从一个或多个初始页面的URL开始,获取初始页面上的URL,并在获取页面的过程中不断从当前页面中提取新的URL并将其放入队列,直到满足系统的某些停止条件。服务器发送的HTTP请求实际上是对服务器文件的请求。HTTP请求对应的文件http://www.baidu.comhttp://www.baidu.com/index.phphttp://www.sina.com.cnhttp://www.sina.com.cn/index.htmlhttp://www.cnblogs.comhttp://www.cnblogs.com/index.htmlhttp://ac.jobdu.comhttp://ac.jobdu.com/index.php3.java获取网页源代码的步骤:创建一个新的URL对象来表示要访问的网址。例如,responsecode=urlConnection getResponseCode();如果HTTP状态代码为200,则表示成功。从urlConnection对象获取输入流对象以获取请求的网页源代码。

原博文:http://www.cnblogs.com/xudong-bupt/archive/2013/03/20/2971893.html

1.网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。

  2.那么程序获取网页的原理到底是怎么回事呢?看下面的图:客服端首先向服务器端发出Http请求,之后服务器端返回相应的结果或者请求超时客户端自己报错。

Java 网络爬虫获取页面源代码第1张  服务器端发出的Http请求,实际上说是对服务器的文件的请求。下面的表格是一些常见的HTTP请求对应的文件。(因为第一列给出的都是主机的网址信息,主机一般都通过配置文件将该请求转换为网站主页地址index.php或index.jsp或者index.html等)

HTTP请求HTTP对应的文件
 http://www.baidu.com http://www.baidu.com/index.php
 http://www.sina.com.cn http://www.sina.com.cn/index.html
 http://www.cnblogs.com http://www.cnblogs.com/index.html
 http://ac.jobdu.com http://ac.jobdu.com/index.php

   3.java实现网页源码获取的步骤:

  (1)新建URL对象,表示要访问的网址。如:url=new URL("http://www.sina.com.cn");

  (2)建立HTTP连接,返回连接对象urlConnection对象。如:urlConnection = (HttpURLConnection)url.openConnection();

  (3)获取相应HTTP 状态码。如responsecode=urlConnection.getResponseCode();

  (4)如果HTTP 状态码为200,表示成功。从urlConnection对象获取输入流对象来获取请求的网页源代码。

  4.java获取网页源码代码:

import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;
public class WebPageSource {
    public static void main(String args[]){    
        URL url;
        int responsecode;
        HttpURLConnection urlConnection;
        BufferedReader reader;
        String line;
        try{
            //生成一个URL对象,要获取源代码的网页地址为:http://www.sina.com.cn
            url=new URL("http://www.sina.com.cn");
            //打开URL
            urlConnection = (HttpURLConnection)url.openConnection();
            //获取服务器响应代码
            responsecode=urlConnection.getResponseCode();
            if(responsecode==200){
                //得到输入流,即获得了网页的内容 
                reader=new BufferedReader(new InputStreamReader(urlConnection.getInputStream(),"UTF-8"));
                while((line=reader.readLine())!=null){
                    System.out.println(line);
                }
            }
            else{
                System.out.println("获取不到网页的源码,服务器响应代码为:"+responsecode);
            }
        }
        catch(Exception e){
            System.out.println("获取不到网页的源码,出现异常:"+e);
        }
    }
}

免责声明:文章转载自《Java 网络爬虫获取页面源代码》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇虚拟机中安装GHO文件配置说明Axios下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

firefox插件-HackBar介绍与试用

This toolbar will help you in testing sql injections, XSS holes and site security. It is NOT a tool for executing standard exploits and it will NOT teach you how to hack a site. I...

Python接口自动化(五) cookie绕过验证码登录

有些登录的接口会有验证码:短信验证码,图形验证码等,这种登录的话验证码参数可以从后台获取的(或者查数据库最直接)。获取不到也没关系,可以通过添加cookie的方式绕过验证码。 抓登录cookie 如博客园,未登录时,使用fiddler抓包查看cookie值。登录后,使用fiddler抓包查看cookie值。查看cookie变化,发现多个两组参数。 #c...

抓取js动态生成的数据案列

本文博客采摘https://www.cnblogs.com/bobo-zhang/p/10561617.html?tdsourcetag=s_pcqq_aiomsg谨防转载 需求:爬取https://www.xuexi.cn/f997e76a890b0e5a053c57b19f468436/018d244441062d8916dd472a4c6a0a0b....

接口调用帮助类(http调接口、WebService动态调接口)

1.HttpGetPost调用接口实现 1 using System; 2 using System.Collections.Generic; 3 using System.Linq; 4 using System.Text; 5 using System.Net; 6 using System.IO; 7 8 namespace He...

java web 拦截器、过滤器理解

1、首先要明确什么是拦截器、什么是过滤器 1.1 什么是拦截器: 拦截器,在AOP(Aspect-Oriented Programming)中用于在某个方法或字段被访问之前,进行拦截然后在之前或之后加入某些操作。拦截是AOP的一种实现策略。 在Webwork的中文文档的解释为——拦截器是动态拦截Action调用的对象。它提供了一种机制可以使开发者可以...

表单的提交方法

定义和用法 method 属性规定如何发送表单数据(表单数据发送到 action 属性所规定的页面)。 表单数据可以作为 URL 变量(method="get")或者 HTTP post (method="post")的方式来发送。 实例 在下面的例子中,表单数据将通过 method 属性附加到 URL 上: <form action="form_...