Urllib2

Python 爬虫入门(二)—— IP代理使用

上一节,大概讲述了Python 爬虫的编写流程, 从这节开始主要解决如何突破在爬取的过程中限制。比如,IP、JS、验证码等。这节主要讲利用IP代理突破。   1.关于代理   简单的说,代理就是换个身份。网络中的身份之一就是IP。比如,我们身在墙内,想要访问google、u2b、fb等,直接访问是404,所以要换个不会被墙的IP,比如国外的IP等。这个就...

python 网络爬虫(二)

一、编写第一个网络爬虫 为了抓取网站,我们需要下载含有感兴趣的网页,该过程一般被称为爬取(crawling)。爬取一个网站有多种方法,而选择哪种方法更加合适,则取决于目标网站的结构。 首先探讨如何安全的下载网页,让后介绍3中爬去网站的常见方法: -- 爬取网站地图; -- 遍历每个网页的数据库 ID; -- 跟踪网页链接; 1、下载网页 要想爬取网页,我们...

python获取知乎日报另存为txt文件

前言 拿来练手的,比较简单(且有bug),欢迎交流~ 功能介绍 抓取当日的知乎日报的内容,并将每篇博文另存为一个txt文件,集中放在一个文件夹下,文件夹名字为当日时间。 使用的库 re,BeautifulSoup,sys,urllib2 注意事项 1.运行环境是Linux,python2.7.x,想在win上使用直接改一下里边的命令就可以了 2.bug是在...

sublime text2 的使用

第一步:官方下载sublime text2并安装,下载地址:http://www.sublimetext.com/2; 第二步:安装包管理器,也就是:Package Control 方法:1、在 SublimeText2 的目录里面找到 Data > Installed Packages 的文件夹 (如没有请手动新建) 2、在这里下载Package...

转: python requests的安装与简单运用

requests是Python的一个HTTP客户端库,跟urllib,urllib2类似,那为什么要用requests而不用urllib2呢? 官方文档中是这样说明的: python的标准库urllib2提供了大部分需要的HTTP功能,但是API太逆天了,一个简单的功能就需要一大堆代码。插播个好消息!刚看到requests有了中文翻译版,建议英文不好的看看...