urllib2

Python 爬虫入门（二）—— IP代理使用

上一节，大概讲述了Python 爬虫的编写流程，从这节开始主要解决如何突破在爬取的过程中限制。比如，IP、JS、验证码等。这节主要讲利用IP代理突破。　　1.关于代理　　简单的说，代理就是换个身份。网络中的身份之一就是IP。比如，我们身在墙内，想要访问google、u2b、fb等，直接访问是404，所以要换个不会被墙的IP，比如国外的IP等。这个就...

python 网络爬虫（二）

一、编写第一个网络爬虫为了抓取网站，我们需要下载含有感兴趣的网页，该过程一般被称为爬取（crawling）。爬取一个网站有多种方法，而选择哪种方法更加合适，则取决于目标网站的结构。首先探讨如何安全的下载网页，让后介绍3中爬去网站的常见方法： -- 爬取网站地图； -- 遍历每个网页的数据库 ID； -- 跟踪网页链接； 1、下载网页要想爬取网页，我们...

python获取知乎日报另存为txt文件

前言拿来练手的，比较简单（且有bug），欢迎交流~ 功能介绍抓取当日的知乎日报的内容，并将每篇博文另存为一个txt文件，集中放在一个文件夹下，文件夹名字为当日时间。使用的库 re，BeautifulSoup，sys，urllib2 注意事项 1.运行环境是Linux，python2.7.x，想在win上使用直接改一下里边的命令就可以了 2.bug是在...

sublime text2 的使用

第一步：官方下载sublime text2并安装，下载地址：http://www.sublimetext.com/2；第二步：安装包管理器，也就是：Package Control 方法：1、在 SublimeText2 的目录里面找到 Data > Installed Packages 的文件夹 (如没有请手动新建) 2、在这里下载Package...

转： python requests的安装与简单运用

requests是Python的一个HTTP客户端库，跟urllib，urllib2类似，那为什么要用requests而不用urllib2呢？官方文档中是这样说明的： python的标准库urllib2提供了大部分需要的HTTP功能，但是API太逆天了，一个简单的功能就需要一大堆代码。插播个好消息！刚看到requests有了中文翻译版，建议英文不好的看看...

Urllib2

Python 爬虫入门（二）—— IP代理使用

python 网络爬虫（二）

python获取知乎日报另存为txt文件

sublime text2 的使用

转： python requests的安装与简单运用

思享工具箱导航

JSON工具

格式化转换

加解密编码

文本数字

网络

站长

计算

其他

对照列表