Part 9 使用代理（代理设置、代理池搭建、使用代理获取微信公众号文章）

摘要：

检测单位时间内对IP的请求数。如果数量超过指定值，服务器将拒绝服务并返回一些错误消息。这是一个IP地址。由于服务器阻止了IP地址，它可以以某种方式伪装IP地址，以便服务器无法识别本地机器发起的请求，从而避免阻止IP地址。在大多数情况下，免费代理不容易使用，付费代理更可靠。付费代理并不多，但他们稳定且可用。您需要在代理之前添加一个协议，即http或https。当请求链接是https协议时，将调用https代理。

网站采取的反爬虫措施有：弹出验证码，需要登录。检测某个IP在单位时间内的请求次数，超过规定的某个值，服务器拒绝服务，返回一些错误信息，这是封IP。
既然服务器封IP，可采用某种方式伪装IP，让服务器不能识别由本机发起的请求，这样来避免封IP。这时就需要使用到代理。
一、代理的设置
代理有免费代理和付费代理。免费代理多数情况下不好用，付费代理比较靠谱。付费代理不用多，稳定可用即可。
西刺免费代理：http://www.xicidaili.com
现在获取西刺网站上的免费代理IP做一个测试。IP获取代码如下所示：

1importjson
2 importpandas as pd
3 from selenium importwebdriver
4 from selenium.webdriver.common.by importBy
5 from selenium.webdriver.support.ui importWebDriverWait
6 from selenium.webdriver.support importexpected_conditions as EC
7 
8 URL = 'https://www.xicidaili.com/'
9 _FILENAME = "xicidailiip.json"
10 
11 classGetXiciDailiIp():
12     def __init__(self):
13         self.url =URL
14         self.browser =webdriver.Chrome()
15         self.wait = WebDriverWait(self.browser, 20)
16         self.http_ip_port ={}
17 
18     def __del__(self):
19 self.browser.close()
20 
21     defget_pagesource(self):
22         """
23 获取网页源代码
24 :return: 网页源代码
25         """
26 self.browser.get(self.url)
27         self.wait.until(EC.presence_of_element_located((By.ID, "ip_list")))
28         page_source =self.browser.page_source
29         returnpage_source
30 
31     defparse_ip(self, page_source):
32         """
33 使用pandas解析网页中的IP地址
34 :param page_source: 网页源代码
35 :return: self.http_ip_port, 包含协议类型，IP地址及端口
36         """
37         df1 = pd.read_html(page_source) #df1 是列表，df1[0] 才是 DataFrame
38         df2 = df1[0][[5, 1, 2]].dropna()   #选取 协议类型、IP地址、端口列后，去掉所有的NA值行
39         proto = list(df2[5])  #获取协议类型列，转化成列表
40         ip = list(df2[1])
41         port = list(df2[2])
42         N =len(proto)
43         s = ['HTTP', 'HTTPS', 'socks4/5']
44         for i inrange(N):
45             if proto[i] ins:
46                 ip_port = ip[i] + ":" +port[i]
47                 if proto[i] inself.http_ip_port:
48                     if ip_port not inself.http_ip_port[proto[i]]:
49 self.http_ip_port[proto[i]].append(ip_port)
50                 else:
51                     self.http_ip_port[proto[i]] =[ip_port]
52             else:
53                 continue
54         returnself.http_ip_port
55 
56     defipport_to_file(self, http_ip_port):
57         with open(_FILENAME, 'w') as f:
58 json.dump(http_ip_port, f)
59 
60     defcrack(self):
61         page_source =self.get_pagesource()
62         http_ip_port =self.parse_ip(page_source)
63 self.ipport_to_file(http_ip_port)
64         #return http_ip_port
65 
66 
67 if __name__ == "__main__":
68     crack =GetXiciDailiIp()
69     crack.crack()

1、使用urllib代理设置
先使用最基础的urllib，来了解下代理的设置方法，代码如下所示：

1 importjson
2 from urllib.error importURLError
3 from urllib.request importProxyHandler, build_opener
4 importb2_get_xicidaili_ip as B2
5 
6 ipportfile = B2._FILENAME   #保存的 IP 及 PORT 文件名称
7 with open(ipportfile, 'r') as f:
8     ips_ports =json.load(f)
9 
10 N =0
11 while N < 20:
12     if ips_ports.get('HTTPS', None) and ips_ports.get('HTTP', None):
13         proxy_handler =ProxyHandler({
14             'http': 'http://' + ips_ports['HTTP'][N],   #http://171.83.165.125:9999
15             'https': 'https://' + ips_ports['HTTPS'][N],
16 })
17     opener =build_opener(proxy_handler)
18     try:
19         response = opener.open('http://httpbin.org/get', timeout=30)
20         if response.status == 200:
21             print(response.read().decode('utf-8'))
22             break
23         else:
24             N += 1
25             continue
26     exceptURLError as e:
27         N += 1
28         print(e.reason)

运行结果如下所示：

{
  "args": {},
  "headers": {
    "Accept-Encoding": "identity",
    "Cache-Control": "max-age=259200",
    "Host": "httpbin.org",
    "User-Agent": "Python-urllib/3.6"},
  "origin": "171.83.165.125, 171.83.165.125",
  "url": "https://httpbin.org/get"}

这里使用 ProxyHandler 设置代理，参数是字典类型，键名为协议类型，键值是代理IP及端口。在代理前面需要加上协议，即http或https。当请求的连接是 http 协议时，ProxyHandler 会调用 http 代理。当请求链接是 https 协议时，会调用 https 代理。这里生效的代理是 http://171.83.165.125:9999。
创建完 ProxyHandler 对象后，接下来利用 build_opener() 方法传入该对象来创建一个 Opener，这样相当于此 Opener 已经设置好代理。下面直接调用 Opnener 对象的 open() 方法，就可以访问想要的链接。
运行输出结果是一个 JSON，有一个字段是 origin，标明客户端的 IP。经验证，此IP确实为代理的IP，并不是真实的IP。这样就成功设置好代理，并隐藏真实的IP。
如果是需要认证的代理，可用下面这样的方法设置：
'http': 'http://' + "username:password@" + ips_ports['HTTP'][N],
其它不做修改。这是在代理前面加入代理认证的用户名密码即可。其中username是用户名，password是密码，例如 username是michael，密码是 python，那么代理就是 michael:python@171.83.165.125:9999。
如果代理是 SOCKS5类型，可用下面方式设置代理：

1 importjson, socks, socket
2 from urllib importrequest
3 from urllib.error importURLError
4 importb2_get_xicidaili_ip as B2
5 
6 ipportfile =B2._FILENAME
7 with open(ipportfile, 'r') as f:
8     ips_ports =json.load(f)
9 
10 N =0
11 while N < 20:
12     if ips_ports.get('socks4/5', None):
13         ip, port = ips_ports['socks4/5'][N].split(":")
14 socks.set_default_proxy(socks.SOCKS5, ip, int(port))
15         socket.socket =socks.socksocket
16     try:
17         response = request.urlopen('http://httpbin.org/get', timeout=30)
18         if response.status == 200:
19             print(response.read().decode('utf-8'))
20             break
21         else:
22             N += 1
23             continue
24     exceptURLError as e:
25         N += 1
26         print(e.reason)

这段代码的运行，需要安装 socks 模块，可用下面命令进行安装：
pip3 install PySocks
免费代理不好用，请求多次都不能成功。在真正需要代理的场景，还是搞个付费代理靠谱。请求成功的话，输出与前面的一样。
2、 requests代理设置
requests的代理设置很简单，只要传入 proxies 参数即可。设置方式如下：

1 importjson, requests
2 importb2_get_xicidaili_ip as B2
3 
4 ipportfile = B2._FILENAME   #保存的 IP 及 PORT 文件名称
5 with open(ipportfile, 'r') as f:
6     ips_ports =json.load(f)
7 
8 N =0
9 while N < 20:
10     if ips_ports.get('HTTPS', None) and ips_ports.get('HTTP', None):
11         proxies ={
12             'http': 'http://' + ips_ports['HTTP'][N],
13             'https': 'https://' + ips_ports['HTTPS'][N],
14 }
15     try:
16         response = requests.get('https://www.baidu.com', proxies=proxies, timeout=30)
17         if response.status_code == 200:
18             print(response.text)
19             break
20         else:
21             N += 1
22             continue
23     exceptrequests.exceptions.ConnectionError as e:
24         N += 1
25         print('Error', e.args)

请求成功后，输出网页的源代码。requests的代理设置比 urllib简单很多，只要构造代理字典，然后通过 proxies参数即可，不需要重新构建 Opener。如果代理需要认证，同样在代理前加上用户名密码即可，写法如下所示：
'http': 'http://' + "username:password" + ":" ips_ports['HTTP'][N],
username和password即是用户名和密码。如要使用SOCKS5代理，可使用如下方式来设置：

proxies ={
    'http': 'socks5://' + ips_ports['HTTP'][N],
    'https': 'socks5://' + ips_ports['HTTPS'][N],
}

这里需要额外安装一个模块，叫作 requests[socks]，安装命令如下所示：
pip3 install 'requests[socks]'
还可以使用 socks 模块设置代理，设置方法如下所示：

1 importrequests, socks, socket
2 
3 socks.set_default_proxy(socks.SOCKS5, '127.0.0.1', 8000)    #IP 和端口可以改为代理网站上的IP和端口
4 socket.socket =socks.socksocket
5 try:
6     response = requests.get('http://httpbin.org/get')
7     print(response.text)
8 exceptrequests.exceptions.ConnectionError as e:
9     print('Error', e.args)

用这种方法设置SOCKS5代理，运行结果是一样的。此方法是全局设置。可以在不同情况下选用不同的方法。
3、 Selenium使用代理
Selenium设置代理有两种方式：一是使用 Chrome ，有界面浏览器；另一种是使用PhantomJS的无界面浏览器。
3.1、 Chrome使用代理
对于Chrome，使用 Selenium设置代理方法很简单，设置方法如下：

1 from selenium importwebdriver
2 proxy = '171.83.165.139:9999'
3 chrome_options =webdriver.ChromeOptions()
4 chrome_options.add_argument('--proxy-server=http://' +proxy)
5 browser = webdriver.Chrome(chrome_options=chrome_options)
6 browser.get('http://httpbin.org/get')

这里使用 ChromeOptions() 设置代理，在创建 Chrome 对象时用 chrome_options 参数传递即可。运行代码弹出Chrome浏览器，成功访问目标网站则在页面上显示下面的信息：

{
  "args": {},
  "headers": {
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8",
    "Accept-Encoding": "gzip, deflate",
    "Accept-Language": "zh-CN,zh;q=0.9",
    "Cache-Control": "max-age=259200",
    "Host": "httpbin.org",
    "Upgrade-Insecure-Requests": "1",
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36"},
  "origin": "171.83.165.139, 171.83.165.139",
  "url": "https://httpbin.org/get"}

代理设置成功，origin就是代理IP的地址。
认证代理设置过程省略。
3.2、 PhantomJS使用代理
PhantomJS代理设置方法可借助 service_args 参数，也就是命令行参数。代理设置方法如下：

1 from selenium importwebdriver
2 service_args =[
3     '--proxy=171.83.165.139:9999',
4     '--proxy-type=http'
5 ]
6 browser = webdriver.PhantomJS(service_args=service_args)
7 browser.get('http://httpbin.org/get')
8 print(browser.page_source)

这里使用 serivce_args 参数，将命令行的一些参数定义为列表，在初始化时候传递给 PhantomJS对象即可。输出如下所示：

<html><head></head><body><pre style="word-wrap: break-word; white-space: pre-wrap;">{
  "args": {},
  "headers": {
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
    "Accept-Encoding": "gzip, deflate",
    "Accept-Language": "zh-CN,en,*",
    "Cache-Control": "max-age=259200",
    "Host": "httpbin.org",
    "User-Agent": "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/538.1 (KHTML, like Gecko) PhantomJS/2.1.1 Safari/538.1"},
  "origin": "171.83.165.139, 171.83.165.139",
  "url": "https://httpbin.org/get"}
</pre></body></html>

输出结果中的 origin 就是代理的IP地址。如果是认证代理，只需要在 service_args中加入 --proxy-auth选项即可，只需将参数改为下面这样：
service_args = [
'--proxy=171.83.165.139:9999',
'--proxy-type=http',
'--proxy-auth=username:password'
]
二、代理池的维护
在爬虫的时候，有些代理IP是不可用的，可能因某个IP多次访问同一个网站，造成该IP被封。这里需要提前做筛选，剔除掉不可用的代理，保留可用的代理。可搭建代理池来解决。
在开始之前，需要安装 Redis数据库并启动服务，还需要安装 aiohttp、requests、redis-py、pyquery、Flask库。
1、代理池目标
实现高效易用的代理池。基本模块分为4块：存储模块、获取模块、检测模块、接口模块。
存储模块：负责存储抓取下来的代理。首先要保证代理不重复，要标识代理的可用情况，还要动态实时处理每个代理，所以一种比较高效和方便的存储方式就是使用Redis 的Sorted Set ，即有序集合。
获取模块：定时在各大代理网站抓取代理。代理可以是免费公开代理也可以是付费代理，形式都是IP 加端口，为此尽量从不同来源获取，尽量抓取高匿代理，抓取成功之后将可用代理保存到数据库中。
检测模块：定时检测数据库中的代理。需要设置一个检测链接，最好是爬取哪个网站就检测哪个网站，这样更加有针对性，如果要做一个通用型的代理，那可以设置百度等链接来检测。另外，需要标识每一个代理的状态，如设置分数标识， 100 分代表可用，分数越少代表越不可用。检测一次，如果代理可用，我们可以将分数标识立即设置为100满分，也可以在原基础上加1分；如果代理不可用，可以将分数标识减1分，当分数戚到一定阔值后，代理就直接从数据库移除。通过这样的标识分数，我们就可以辨别代理的可用情况，选用的时候会更有针对性。
接口模块：需要用API 来提供对外服务的接口。其实我们可以直接连接数据库来取对应的数据，但是这样就需要知道数据库的连接信息，并且要配置连接，而比较安全和方便的方式就是提供一个Web API 接口，通过访问接口即可拿到可用代理。另外，由于可用代理可能有多个，那么可以设置一个随机返回某个可用代理的接口，这样就能保证每个可用代理都可以取到，实现负载均衡。
2、代理池的原理
代理池大致可分为4个模块：存储模块、获取模块、检测模块、接口模块。
存储模块：使用Redis的有序集合，用来做代理的去重和状态标识，中心模块和基础模块，将其他模块串联起来。
获取模块：定时从代理网站获取代理，将获取的代理传递给存储模块，并保存到数据库。
检测模块：定时通过存储模块获取所有代理，并对代理进行检测，根据不同的检测结果对代理设置不同的标识。
接口模块：通过WebAPI提供服务接口，接口通过连接数据库并通过Web 形式返回可用的代理。
3、代理池的实现
经过上述分析，下面用代码实现这4个模块。
3.1、存储模块
使用Redis有序集合，集合的每一个元素不重复，对于代理池来说，集合的元素就变成了一个个代理，就是IP加端口形式，如1.1.1.1:8000，集合的元素就是这种形式。此外，有序集合的每一个元素有一个分数字段，分数可以重复，可以是浮点数类型，也可以是整数类型。该集合会根据每一个元素的分数对集合进行排序，数值小的排前面，数据值大的排后面，这样可实现集合元素的排序。
对于代理，这个分数可以作为判断一个代理是否可用的标志，100分最高，代表最可用，0分最低，代表最不可用。如果要获取可用代理，可从代理池中随机获取分数最高的代理，这样可保证每个可用代理都会被调用到。
分数是判断代理稳定性的重要标准，设置分数规则如下：
(1)、分数100为可用，检测器定时循环检测每个代理可用情况，一旦检测到有可用代理就设置为100，检测到不可用就将分数减1，分数减至0后代理移除。
(2)、新获取的代理分数为10，如果测试可行，分数立即设置为100，不可行则分数减1，分数减至0后代理移除。
检测到代理可用就将分数立即设置为100，这样保证所有可用代理有更大机会被获取到。立即设置为100而不是每次加1，是因为代理是从各大免费网站获取的，一个代理并不稳定，5次请求，可能有3次都会失败。所以请求成功后就设置为100，避免过多的去测试请求，这样分数最高可用的机会也最大。
先定义一个RedisClient类来操作数据库的有序集合，定义一些方法实现分数的设置、代理的获取等。代码如下所示：

1 MAX_SCORE = 100
2 MIN_SCORE =0
3 INITIAL_SCORE = 10
4 REDIS_HOST = '192.168.64.50'
5 REDIS_PORT = 6379
6 REDIS_PASSWORD =None
7 REDIS_KEY = 'proxies'
8 
9 importredis
10 from random importchoice
11 importre
12 
13 classRedisClient(object):
14     def __init__(self, host=REDIS_HOST, port=REDIS_PORT, password=REDIS_PASSWORD):
15         """
16 初始化，参数是Reids的连接信息
17 :param host: Redis 地址
18 :param port: Redis 端口
19 :param password: Redis 密码
20         """
21         self.db = redis.StrictRedis(host=host, port=port, password=password, decode_responses=True)
22 
23     def add(self, proxy, score=INITIAL_SCORE):
24         """
25 添加代理，设置分数为最高，默认分数为INITIAL_SCORE
26 :param proxy: 代理
27 :param score: 分数
28 :return: 添加结果
29         """
30         if not re.match('d+.d+.d+.d+:d+', proxy):
31             print('代理不符合规范', proxy, '不添加')
32             return
33         if notself.db.zscore(REDIS_KEY, proxy):
34             returnself.db.zadd(REDIS_KEY, {proxy: score})
35 
36     defrandom(self):
37         """
38 随机获取有效代理，首先尝试获取最高分数代理，如果最高分数不存在，则按照排名获取，否则异常
39 :return: 随机代理
40         """
41         result = self.db.zrangebyscore(REDIS_KEY, MAX_SCORE, MAX_SCORE) #选取分数最高的代理
42         iflen(result):
43             returnchoice(result)
44         else:
45             result = self.db.zrevrange(REDIS_KEY, 0, 100)   #索引从0到100的代理
46             iflen(result):
47                 returnchoice(result)
48             else:
49                 raisePoolEmptyError
50 
51     defdecrease(self, proxy):
52         """
53 代理无效时，代理分数值减一分，分数小于最小值，则代理删除
54 :param proxy: 代理
55 :return: 修改后的代理分数
56         """
57         score =self.db.zscore(REDIS_KEY, proxy)
58         if score and score >MIN_SCORE:
59             print("代理", proxy, "当前分数", score, "减1")
60             return self.db.zincrby(REDIS_KEY, proxy, -1)
61         else:
62             print("代理", proxy, "当前分数", score, '移除')
63             returnself.db.zrem(REDIS_KEY, proxy)
64 
65     defexists(self, proxy):
66         """
67 判断代理是否在集合中
68 :param proxy: 代理
69 :return: 是否存在
70         """
71         return not self.db.zscore(REDIS_KEY, proxy) ==None
72 
73     defmax(self, proxy):
74         """
75 将代理设置为MAX_SCORE，代理有效时的设置
76 :param proxy: 代理
77 :return: 设置结束
78         """
79         print("代理", proxy, "可用，设置为", MAX_SCORE)
80         returnself.db.zadd(REDIS_KEY, {proxy: MAX_SCORE})
81 
82     defcount(self):
83         """
84 获取当前集合的元素个数
85 :return:数量
86         """
87         return self.db.zcard(REDIS_KEY)     #zcount(name, min, max)是在一个区间中的个数
88 
89     defall(self):
90         """
91 获取全部代理，检测使用
92 :return: 全部代理列表
93         """
94         returnself.db.zrangebyscore(REDIS_KEY, MIN_SCORE, MAX_SCORE)
95 
96     defbatch(self, start, stop):
97         """
98 批量获取，获取指定索引范围内的代理，不是分数范围
99 :param start: 开始索引
100 :param stop: 结束索引
101 :return: 代理列表
102         """
103         return self.db.zrevrange(REDIS_KEY, start, stop - 1)

这里首先定义一些常量，如MAX_SCORE、MIN_SCORE、INITIAL_SCORE代表最大分数、最小分数、初始分数。还有一些Redis的连接信息。REDIS_KEY是有序集合的键名，用来获取代理存储所使用的有序集合。
有了这些方法，在后面的模块中调用这个类来连接和操作数据库。要获取随机可用代理，调用 random()方法即可。
3.2、获取模块
这里定义一个Crawler类从各大网站抓取代理，代码如下：

1 importjson, re
2 from .utils importget_page
3 from pyquery importPyQuery as pq
4 
5 classProxyMetaclass(type):
6     def __new__(cls, name, bases, attrs):
7         count =0
8         attrs['__CrawlFunc__'] =[]
9         for k, v inattrs.items():
10             if 'crawl_' ink:
11                 attrs['__CrawlFunc__'].append(k)
12                 count += 1
13         attrs['__CrawlFuncCount__'] =count
14         return type.__new__(cls, name, bases, attrs)
15 
16 class Crawler(object, metaclass=ProxyMetaclass):
17     defget_proxies(self, callback):
18         proxies =[]
19         for proxy in eval("self.{}()".format(callback)):
20             print("成功获取到代理", proxy)
21 proxies.append(proxy)
22         returnproxies
23 
24     def crawl_daili66(self, page_count=4):
25         """
26 获取代理66
27 :param page_count: 页码
28 :return: 代理
29         """
30         start_url = 'http://www.66ip.cn/{}.html'
31         urls = [start_url.format(page) for page in range(1, page_count+1)]
32         for url inurls:
33             print('Crawling',url)
34             html =get_page(url)
35             ifhtml:
36                 doc =pq(html)
37                 trs = doc('.containerbox table tr:gt(0)').items()
38                 for tr intrs:
39                     ip = tr.find('td:nth-child(1)').text()
40                     port = tr.find('td:nth-child(2)').text()
41                     yield ':'.join([ip, port])
42 
43     defcrawl_xicidaili(self):
44     for i in range(1, 3):
45         start_url = 'http://www.xicidaili.com/nn/{}'.format(i)
46         headers ={
47             'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
48             'Cookie':'_free_proxy_session=BAh7B0kiD3Nlc3Npb25faWQGOgZFVEkiJTMxMTIyMjkwNDYzYjhlODY3MDY4NzI0NmViMzE1ZDFmBjsAVEkiEF9jc3JmX3Rva2VuBjsARkkiMStES2RNNXNIL0ZnTkdpaUNhUitRVDB5a29PbGloVW44Qzc0WWNrQ2Q1T3c9BjsARg%3D%3D--7d5fcaeb32843a5d36f977d5f5d6c68541017953; Hm_lvt_0cf76c77469e965d2957f0553e6ecf59=1555326928,1555382306,1555465785,1555569224; Hm_lpvt_0cf76c77469e965d2957f0553e6ecf59=1555569269',
49             'Host':'www.xicidaili.com',
50             'Referer':'http://www.xicidaili.com/nn/3',
51             'Upgrade-Insecure-Requests':'1',
52 }
53         html = get_page(start_url, options=headers)
54         ifhtml:
55             find_trs = re.compile('<tr class.*?>(.*?)</tr>', re.S)
56             trs =find_trs.findall(html)
57             find_ip = re.compile('<td>(d+.d+.d+.d+)</td>')
58             find_port = re.compile('<td>(d+)</td>')
59             for tr intrs:
60                 re_ip_address =find_ip.findall(tr)
61                 re_port =find_port.findall(tr)
62                 for address, port  inzip(re_ip_address, re_port):
63                     address_port = address + ":" +port
64                     yield address_port.replace(' ', '')

这里将获取代理的方法都定义为 crawl 开头，这样以后还有代理网站时，可添加 crawl 开头的方法即可。代码中获取了代理66和西刺两个网站的免费代理，在方法中使用生成器，通过 yield 返回一个个代理。使用get_page()方法先获取网页，然后用pyquery和re解析，解析出ip和端口形式的代理后返回。
在 Crawler 类中定义的 get_proxies() 方法，将所有以 crawl 开头的方法都调用一遍，获取每个方法返回的代理并组合成列表形式返回。这里用元类来实现所有以 crawl 开头的方法调用，先定义一个类 ProxyMetaclass，Crawl类将设置为元类，元类中实现了 __new__()方法，这个方法有固定几个参数，第四个参数 attrs 包含了类的一些属性，通过遍历 attrs 这个参数即可获取类的所有方法信息，就同遍历字典一样，键名对应方法的名，接着判断方法的开关是否 crawl，是则将其加入到 __CrawlFunc__属性中。这样就将所有以 crawl 开头的方法定义成一个属性，动态获取到所有以 crawl 开头的方法列表。
如果以后有新的代理网站要抓取，只需要在类 Crawler 类中添加一个以 crawl 开头的方法即可。依照其它几个方法将其定义成生成器，抓取其网站的代理，然后通过 yield返回代理即可。这样方便扩展，也不用关心其他部分的实现逻辑。
代理的添加也比较灵活，免费代理和付费代理都可以添加，付费代理的提取方式也是类似的。
这里使用到的 utils中 get_page() 方法代码如下：

1 importrequests
2 from requests.exceptions importConnectionError
3 
4 base_headers ={
5     'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36',
6     'Accept-Encoding': 'gzip, deflate, br',
7     'Accept-Language': 'zh-CN,zh;q=0.9'
8 }
9 
10 def get_page(url, options={}):
11     """
12 抓取代理网站的IP
13 :param url: 代理网站网址
14 :param options: 请求头部信息
15 :return: 获取成功返回网页源代码，失败返回None
16     """
17     headers = dict(base_headers, **options) #base_headers 与 options 的键重复，则更新base_headers中的值
18     try:
19         response =requests.get(url, headers)
20         print("抓取成功", url, response.status_code)
21         if response.status_code == 200:
22             returnresponse.text
23     exceptConnectionError:
24         print("抓取失败", url)
25         return None

接下来定义一个 Getter 类，用来动态地调用所有以 crawl 开头的方法，获取抓取到的代理，将其加入到数据库存储起来：

1 importsys
2 from .db importRedisClient
3 from .crawler importCrawler
4 
5 POOL_UPPER_THRESHOLD = 10000
6 classGetter():
7     def __init__(self):
8         self.redis =RedisClient()
9         self.crawler =Crawler()
10 
11     defis_over_threshold(self):
12         """
13 判断是否到达代理池限制
14 :return:
15         """
16         if self.redis.count() >=POOL_UPPER_THRESHOLD:
17             returnTrue
18         else:
19             returnFalse
20 
21     defrun(self):
22         print('获取器开始执行')
23         if notself.is_over_threshold():
24             for callback_label in range(self.crawler.__CrawlFuncCount__):
25                 callback = self.crawler.__CrawlFunc__[callback_label]
26                 #获取代理
27                 proxies =self.crawler.get_proxies(callback)
28 sys.stdout.flush()
29                 for proxy inproxies:
30                     self.redis.add(proxy)

Getter类是获取器类，变量 POOL_UPPER_THRESHOLD 表示的是代理池的最大数量，数量可以灵活配置。is_over_threshold() 方法用于判断代理池是否到达容量阈值，在这个方法中调用了 RedisClient类的 count() 方法来获取代理的数量进行判断，如果数量到达阈值，就返回True，否则返回 False，不想加这个限制的话，可将些方法都返回 True。
接下来定义的 run() 方法，首先判断代理池是否到达阈值，然后调用 Crawler类的 __CrawFunc__ 属性，获取到所有以 crawl 开头的方法列表，依次通过 get_proxies() 方法调用，得到各个方法抓取到的代理，然后利用 RedisClient 的 add() 方法加入数据库，这样就完成了获取模块的工作。
3.3、检测模块
对所有代理进行多轮检测，代理检测可用，分数就设置为 100，代理不可用，分数减1，这样可以实时改变每个代理的可用情况。要获取有效代理，只需要获取分数最高的代理即可。
由于代理数量多，为了提高代理请求检测效率，这里使用异步请求库 aiohttp 进行检测。requests是同步请求库，发出请求后需要得到网页加载完成后才能继续往下执行，这个过程会阻塞等待响应，如果服务器响应很慢的话，在requests请求这个等待过程，可以调度其他请求或者进行网页解析。
异步请求库就解决了这个问题，类似 JavaScript 中的回调，即在请求发出后，程序可继续执行做其它的事情，当响应到达时，程序再去处理这个响应。于是程序没有被阻塞，可充分利用时间和资源，大大提高效率。
测试模块的代码实现如下：

1 importasyncio
2 importaiohttp
3 importtime, sys
4 
5 try:
6     from aiohttp importClientError
7 except:
8     from aiohttp importClientProxyConnectionError as ProxyConnetionError
9 from .db importRedisClient
10 
11 VALID_STATUS_CODES = [200, 302]
12 TEST_URL = 'http://www.baidu.com'
13 BATCH_TEST_SIZE = 100
14 classTester(object):
15     def __init__(self):
16         self.redis =RedisClient()
17 
18     async deftest_single_proxy(self, proxy):
19         """
20 测试单个代理
21 :param proxy: 代理IP
22 :return:
23         """
24         conn = aiohttp.TCPConnector(verify_ssl=False)
25         async with aiohttp.ClientSession(connector=conn) as session:
26             try:
27                 ifisinstance(proxy, bytes):
28                     proxy = proxy.decode('utf-8')
29                 real_proxy = 'http://' +proxy
30                 print('正在测试', proxy)
31                 async with session.get(TEST_URL, proxy=real_proxy, timeout=15, allow_redirects=False) as response:
32                     if response.status inVALID_STATUS_CODES:
33 self.redis.max(proxy)
34                         print('代理可用', proxy)
35                     else:
36 self.redis.decrease(proxy)
37                         print('请求响应不合法', response.status, 'IP', proxy)
38             except(ClientError, aiohttp.ClientConnectionError, asyncio.TimeoutError, AttributeError):
39 self.redis.decrease(proxy)
40                 print('代理请求失败', proxy)
41 
42     defrun(self):
43         """
44 测试主函数
45 :return:
46         """
47         print('测试器开始运行')
48         try:
49             count =self.redis.count()
50             print('当前剩余', count, '个代理')
51             for i inrange(0, count, BATCH_TEST_SIZE):
52                 start =i
53                 stop = min(i+BATCH_TEST_SIZE, count)
54                 print('正在测试', start + 1, '-' ,stop, '个代理')
55                 test_proxies =self.redis.batch(start, stop)
56                 loop =asyncio.get_event_loop()
57                 tasks = [self.test_single_proxy(proxy) for proxy intest_proxies]
58 loop.run_until_complete(asyncio.wait(tasks))
59 sys.stdout.flush()
60                 time.sleep(5)
61         exceptException as e:
62             print('测试器发生错误', e.args)

在这个模块中，类 Tester中 __init__()方法建立了一个 RedisClient对象，该对象可在类中其它地方使用。接下来定义一个test_single_proxy() 方法，这个方法检测单个代理的可用情况，参数是被检测的代理。在定义这个方法时加了关键字 async，表示是异步的。在方法内部创建了 aiohttp的 ClientSession 对象，该对象类似于 requests 的 Session 对象，可直接调用该对象的get()方法访问页面。这里代理的设置通过 proxy 参数传递给 get() 方法，在请求方法前面也要加上 async 关键字来标明是异步请求，这是 aiohttp 使用时的常见写法。
测试连接由 TEST_URL 确定，可针对不同的网站设置该值。同一个代理IP在不同的网站请求，可能得到的返回结果是不一样的。这个TEST_URL 设置为一个稳定的网站（如百度）时，代理池比较通用。
连接状态码由 VALID_STATUS_CODES变量定义，以列表的形式存在，包含正常状态码，某些目标网站可能会出现其他状态码，可进行相应设置。通过判断响应状态码是否在 VALID_STATUS_CODES 列表里，来判断代理是否可用，可用就调用 RedisClient 的 max()方法将代理分数设为 100，否则调用 decrease() 方法将代理分数减1，如果出现异常，同样将代理分数减1。
另外一个常量 BATCH_TEST_SIZE 是批量测试的最大值，这里设置一批测试最多 100 个，可避免代理池过大时一次性测试全部代理导致内存开销过大。
在 run() 方法里获取所有代理列表，使用 aiohttp 分配任务，启动运行，这样就进行了异步检测。aiohttp官方网站示例：http://aiohttp.readthedocs.io/。
3.4、接口模块
要获取存储在数据库中的代理，可使用 RedisClient类连接Redis，然后调用 random() 方法，这样做虽然效率高，但是会有些问题。比如别人使用这个代理池，需要让他知道Redis连接用户名和密码，这样不安全。如果代理池在远程服务器上运行，但远程服务器的Redis 只允许本地连接，那么就不能远程直连Redis来获取代理。如果爬虫的主机没有连接 Redis 模块，或者爬虫不是由 Python语言编写的，就无法使用 RedisClient 来获取代理。如果 RedisClient 类或者数据结构有更新，爬虫端必须同步这些更新。这样是非常麻烦的。
考虑到上面这些因素，可将代理池作为一个独立的服务运行，增加一个接口，以 Web API 的形式展示可用代理。这样获取代理只需要请求接口即可，上面的问题也可以避免。下面使用轻量级的库 Flask 来实现这个接口模块。代码如下所示：

1 from flask importFlask, g
2 from .db importRedisClient
3 __all__ = ['app']
4 app = Flask(__name__)
5 defget_conn():
6     if not hasattr(g, 'redis'):
7         g.redis =RedisClient()
8         returng.redis
9 
10 @app.route('/')
11 defindex():
12     return '<h2>Welecome to Proxy Pool System</h2>'
13 
14 @app.route('/random')
15 defget_proxy():
16     """
17 获取随机可用代理
18 :return: 随机代理
19     """
20     conn =get_conn()
21     returnconn.random()
22 
23 @app.route('/count')
24 defget_counts():
25     """
26 获取代理池总量
27 :return: 代理池总量
28     """
29     conn =get_conn()
30     returnstr(conn.count())
31 
32 if __name__ == '__main__':
33     app.run()

这里声明了一个 Flask 对象，定义了3个接口，分别是首页、随机代理面、获取数量页。运行后，Flask 会启动一个Web服务，只需要访问对应接口即可获取到可用代理。
3.5、调度模块
调度模块就是调用前面定义的3个模块，将这3个模块通过多线程形式运行起来，代码如下：

1 importtime
2 from multiprocessing importProcess
3 from .api importapp
4 from .getter importGetter
5 from .tester importTester
6 
7 TESTER_CYCLE = 20
8 GETTER_CYCLE = 30
9 TESTER_ENABLED =True
10 GETTER_ENABLED =True
11 API_ENABLED =True
12 
13 classScheduler():
14     def schedule_tester(self, cycle=TESTER_CYCLE):
15         """
16 定时测试代理
17 :return:
18         """
19         tester = Tester()           #初始化测试实例
20         whileTrue:
21             print('测试器开始运行')
22             tester.run()            #开始测试
23             time.sleep(cycle)       #休眠一段时间后进行下一次测试
24 
25     def schedule_getter(self, cycle=GETTER_CYCLE):
26         """
27 定时获取代理
28 :param cycle: 时间间隔
29 :return:
30         """
31         getter = Getter()           #初始化获取实例
32         whileTrue:
33             print('开始抓取代理')
34             getter.run()            #抓取代理
35             time.sleep(cycle)       #休眠一段时间后下等下一次抓取
36 
37     defschedule_api(self):
38         """
39 开启API
40 :return:
41         """
42         app.run(API_HOST, API_PORT) #调用 flask 在页面上显示一个随机 IP
43 
44     defrun(self):
45         print('代理池开始运行')
46 
47         ifTESTER_ENABLED:
48             tester_process = Process(target=self.schedule_tester)   #设置启动目标
49             tester_process.start()                                  #启动
50 
51         ifGETTER_ENABLED:
52             getter_process = Process(target=self.schedule_getter)
53 getter_process.start()
54 
55         ifAPI_ENABLED:
56             api_process = Process(target=self.schedule_api)
57             api_process.start()

在这个调度模块代码中，3个常量TESTER_ENABLED、GETTER_ENABLED、API_ENABLED是布尔型，表示测试模块、获取模块、接口模块的开关。默认都是True，表示模块开启。
启动入口是 run() 方法，这个方法分别判断3个模块的开关。如果开关开启，启动时程序就新建一个Process进程，设置好启动目标，然后调用start() 方法运行。3个进程可以并行执行，互不干扰。
只需要调用 Scheduler 的 run() 方法即可启动整个代理池。
3.6、运行
下面将代码整合下，让代理运行起来。运行后的代码池在控制台有输出，从输出可以看出可用代理设置为100，不可用代理分数减1。由于当前配置运行在 5555 端口，在浏览器地址栏打开 http://127.0.0.1:5555，可看到代理首页，访问 http://127.0.0.1:5555/random可获取随机可用代理。只要访问此接口即可获取一个随机可用代理。下面的代码是获取代理的总开关，运行这段代码就开始获取代理。

1 from proxypool.scheduler importScheduler
2 importsys
3 importio
4 
5 sys.stdout = io.TextIOWrapper(sys.stdout.buffer, encoding='utf-8')
6 
7 defmain():
8     try:
9         s = Scheduler()     #初始化
10         s.run()             #调用 run() 方法开始运行
11     except:
12 main()
13 if __name__ == '__main__':
14     main()

获取到的代理保存在Redis数据库中，可以通过访问 http://127.0.0.1:5555/random 来获取随机可用代理。访问 http://127.0.0.1:5555是首页页面。获取一个随机代理的代码如下所示：

1 importos, sys, requests
2 from bs4 importBeautifulSoup as bs
3 
4 dir = os.path.dirname(os.path.dirname(os.path.abspath(__file__)))
5 sys.path.insert(0, dir)
6 
7 PROXY_POOL_URL = 'http://127.0.0.1:5555/random'
8 TEST_URL = 'http://docs.jinkan.org/docs/flask/'
9 
10 defget_proxy():
11     """
12 在本地flask生成的网站上获取一个随机可用的 IP
13 :return: 代理IP
14     """
15     r =requests.get(PROXY_POOL_URL)
16     proxy = bs(r.text, 'lxml').get_text()
17     returnproxy
18 
19 defcrawl(url, proxy):
20     """
21 测试代理是否用
22 :param url: 测试的目标网站
23 :param proxy: 被测试的代理IP
24 :return: 目标网站的源代码
25     """
26     proxies = {'http': proxy, 'https': proxy}
27     try:
28         r = requests.get(url, proxies=proxies)
29         returnr.text
30     exceptrequests.exceptions.ConnectionError as e:
31         print('Error', e.args)
32 
33 defmain():
34     proxy =get_proxy()
35     html =crawl(TEST_URL, proxy)
36     print(html)
37 
38 if __name__ == '__main__':
39     main()

最后通过一个随机的代理IP去请求指定网址的代码如下所示：

1 importrequests
2 from example importget_proxy
3 #from ..proxypool.setting import TEST_URL
4 TEST_URL = 'https://www.baidu.com'
5 
6 proxy = get_proxy()     #获取代理IP
7 
8 proxies ={
9     'http': 'http://' +proxy,
10     'https:': 'https://' +proxy
11 }
12 
13 print(TEST_URL)
14 response = requests.get(TEST_URL, proxies=proxies, verify=False)
15 if response.status_code == 200:
16     print('Successfully')
17     print(response.text)

三、使用代理爬取微信公众号文章
链接是：https://weixin.sogou.com
目标：利用代理爬取微信公众号文章，提取正文、发表日期、公众号等内容，将结果保存到MySQL数据库
需要用到代理池，要用到的Python库有：aiohttp、requests、redis-py、pyquery、Flask、PyMySQL。
1、爬取分析
搜狗对微信公众平台的公众号和文章做了整合。可通过上面的链接搜索到相关的公众号和文章。例如搜索 python，可以搜索到最新的文章。点击搜索后，搜索结果的URL中有很多无关GET请求参数，将无关的参数去掉，只保留 type 和 query 参数即可，例如https://weixin.sogou.com/weixin?type=2&query=python，类型为2 代表搜索微信文章，query为python代表搜索关键词为python。
下拉网页，点击下一页即可翻页。要注意的是，没有登录只能看到10页的内容，登录后可以看到100页的内容。如果爬取更多内容，就需要登录并使用Cookies来爬取。搜狗微信的反爬能力很强，如连接刷新，站点就会弹出验证码页面，如图1-1所示。
图1-1 验证码页面
这时网络请求出现了302跳转，返回状态码为302，跳转的链接开头为https://weixin.sogou.com/antispider/，这是一个反爬虫的验证页面。所以基本可以确定，如果服务器返回状态码是302而非200，则IP访问次数太高，IP被封禁，这些请求就是失败了。这种情况可以选择识别验证码，也可使用代理直接切换IP。
遇到这情况，这次使用代理切换IP。代理使用前面搭建的代理池，还要更改检测的URL为搜狗微信的站点。对于反爬能力很强的网站，遇到这种返回状态需要重试。所以要采用另一种反爬方式，借助数据库构造一个爬取队列，待爬取的请求都放到队列里，如果请求失败了重新放回队列，就会重新调度爬取。
这里采用 Redis 的队列数据结构，新的请求加入队列，有需要重试的请求也放回队列。调度时如果队列不为空，就把一个个请求取出来执行，得到响应后再进行解析，提取出想要的结果。
这次采用MySQL存储，使用pymysql库，将抓取结果构造为一个字典，实现动态存储。
经过上述分析，这次实现的功能有如下几点：
修改代理池检测链接为搜狗微信站点；
构造 Redis 爬取队列，用队列实现请求的存取；
实现异常处理，失败的请求重新加入队列；
实现翻页和提取文章列表，并把对应的请求加入队列；
实现微信文章的信息提取；
将提取的信息保存到MySQL。
2、请求构造
首先实现一个请求 Request 的数据结构，这个请求要包含一些必要信息，如请求链接、请求方式、请求头、超时时间等。此外，对于某个请求，还需要实现对的方法来处理它的响应，所以要再加一个 Calllback回调函数。每次翻页请求需要代理来实现，所以还需要一个参数 NeedProxy。如果一个请求失败次数太多，就不再重新请求，还需要加失败次数的记录。
这些字段都需要作为Request的一部分，组成一个完整的Request对象放入队列去调度，这样从队列获取出来的时候直接执行这个Request对象就行。
使用继承requests库中的 Request 对象的方式来实现这个数据结构。requests 库中已经有了 Request对象，它将请求 Request作为一个整体对象去执行，得到响应后再返回。在requests库中的get()、post() 等方法都是通过执行Request对象实现的。
先来看一下 Request对象的源码：

1 classRequest(RequestHooksMixin):
2     def __init__(self,
3             method=None, url=None, headers=None, files=None, data=None,
4             params=None, auth=None, cookies=None, hooks=None, json=None):
5 
6         #Default empty dicts for dict params.
7         data = [] if data is None elsedata
8         files = [] if files is None elsefiles
9         headers = {} if headers is None elseheaders
10         params = {} if params is None elseparams
11         hooks = {} if hooks is None elsehooks
12 
13         self.hooks =default_hooks()
14         for (k, v) inlist(hooks.items()):
15             self.register_hook(event=k, hook=v)
16 
17         self.method =method
18         self.url =url
19         self.headers =headers
20         self.files =files
21         self.data =data
22         self.json =json
23         self.params =params
24         self.auth =auth
25         self.cookies = cookies

这是 requests 库中 Request 对象的构造方法。这个 Request包含了请求方式、请求链接、请求头几个属性，但是相比前面分析的还差了几个。另外还需要实现一个特定的数据结构，在原先的基础上加入上文所提到的额外几个属性。这里需要继承 Request 对象重新实现一个请求，将这个类定义为 WeixinRequest，代码如下所示：

1 from requests importRequest
2 TIMEOUT = 10
3 classWeixinRequest(Request):
4     def __init__(self, url, callback, method='GET', headers=None, need_proxy=False, fail_time=0,
5                  timeout=TIMEOUT):
6         Request.__init__(self, method, url, headers)
7         self.callback =callback
8         self.need_proxy =need_proxy
9         self.fail_time =fail_time
10         self.timeout = timeout

这段代码中实现了 WeixinRequest 数据结构。在__init__()方法中先调用 Request 的 __init__()方法，然后加入额外的几个参数，定义为 callback、need_proxy、fail_time、timeout，分别代表回调函数、是否需要代理爬取、失败次数、超时时间。
可将WeixinRequest作为一个整体来执行，一个个WeixinRequest对象都是独立的，每个请求都有自己的属性。例如，调用它的callback，就可知道这个请求响应应该用什么方法来处理，调用 fail_time 就可知道这个请求失败了多少次，判断失败次数是不是到了阈值，该不该丢弃这个请求。
3、请求队列实现
构造请求队列，实现请求存取。存取就两个操作，一个是存，一个是取，使用Redis的 rpush() 和 lpop() 方法即可。在存取时不能直接存Request对象，Redis里面存的是字符串。在存Request对象前先将其序列化，取出时再将其反序列化，这个过程用pickle模块实现。代码如下所示：

1 from redis importStrictRedis
2 from pickle importdumps, loads
3 from .request importWeixinRequest
4 
5 REDIS_HOST = '192.168.64.50'
6 REDIS_PORT = 6379
7 REDIS_PASSWORD =None
8 REDIS_KEY = 'weixin'
9 
10 classRedisQueue():
11     def __init__(self):
12         """
13 初始化Redis
14         """
15         self.db = StrictRedis(host=REDIS_HOST, port=REDIS_PORT, password=REDIS_PASSWORD)
16 
17     defadd(self, request):
18         """
19 向队列添加序列化后的Request
20 :param request: 请求对象
21 :return: 添加结果
22         """
23         ifisinstance(request, WeixinRequest):
24             returnself.db.rpush(REDIS_KEY, dumps(request))
25         returnFalse
26 
27     defpop(self):
28         """
29 取出一个Request并反序列化
30 :return: Request or None
31         """
32         ifself.db.llen(REDIS_KEY):
33             returnloads(self.db.lpop(REDIS_KEY))
34         else:
35             returnFalse
36 
37     defclear(self):
38         """删除数据库"""
39 self.db.delete(REDIS_KEY)
40 
41     defempty(self):
42         """判断队列是否为空"""
43         return self.db.llen(REDIS_KEY) ==0
44 
45 if __name__ == '__main__':
46     db =RedisQueue()
47     start_url = 'https://www.baidu.com'
48     weixin_request = WeixinRequest(url=start_url, callback='hello', need_proxy=True)
49 db.add(weixin_request)
50     request =db.pop()
51     print(request)
52     print(request.callback, request.need_proxy)

在代码中 RedisQueue 类中的初始化方法中初始化了一个 StrictRedis对象。接着实现了 add() 方法，先判断 Request 的类型，如果是 WeixinRequest，就用 pickle 的 dumps() 方法序列化，然后调用 rpush() 方法加入队列。调用 pop() 方法将从队列中取出，再调用 pickle的 loads() 方法将其转化为 WeixinRequest 对象。empty() 方法返回队列是否为空，只要判断队列长度是否为 0 即可。
4、修改代理池
在生成请求开始爬取之前，先找一些可用代理。将代理池检测的URL修改成搜狗微信站点，将被搜狗微信封禁的代理剔除掉，留下可用代理。将代理池的中的 TEST_URL 修改为 https://weixin.sogou.com/weixin?type=2&query=python，被本站点封禁的代理就会减分，正常请求的代理就会赋值为100，最后留下可用代理。
修改后将获取模块、检测模块、接口模块的开关都设置为True，让代理池先运行一会。这时数据库中留下的100分代理就是针对搜狗微信的可用代理。现在访问代理接口，接口设置为5555，访问 http://127.0.0.1:5555/random即可获取随机可用代理。
现在来定义一个函数get_proxy()获取随机代理，该函数封装在Spider() 类中。

1 importrequests
2 PROXY_POOL_URL = 'http://192.168.64.50:5555/random'
3 defget_proxy(self):
4     """
5 从代理池获取代理
6 :return:
7     """
8     try:
9         response =requests.get(PROXY_POOL_URL)
10         if response.status_code == 200:
11             print('Get Proxy', response.text)
12             returnresponse.text
13         returnNone
14     exceptrequests.ConnectionError:
15         return None

5、第一个请求
前面的工作准备好后，下面就构造一个请求放到队列里以供调度。这里定义一个Spider类，前面的 get_proxy() 函数封装在这个类中，接下来实现start()方法，代码如下所示：

1 from requests importSession
2 from redisdb importRedisQueue
3 from mysql importMySQL
4 from request importWeixinRequest
5 from urllib.parse importurlencode
6 importrequests
7 
8 PROXY_POOL_URL = 'http://192.168.64.50:5555/random'
9 
10 classSpider():
11     base_url = 'https://weixin.sogou.com/weixin'
12     keyword = 'python'
13     headers ={
14         'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
15         'Accept-Encoding': 'gzip, deflate, br',
16         'Accept-Language': 'zh-CN,zh;q=0.9',
17         'Cache-Control': 'max-age=0',
18         'Connection': 'keep-alive',
19         'Cookie': 'CXID=339A2898FD48047A6358656B1D96964B; SUID=53C8B0755B6358656B6ED3DA000C9B6B; SUV=005D2CADB63586565BF21BEFCBBE3709; pgv_pvi=8799300608; ssuid=6762987792; ld=Elllllllll2t033xlllllVhER71lVlllTCKCjZllll9lVlllVllll5@@@@@@@@@@; LSTMV=51%2C491; LCLKINT=18260; ABTEST=0|1557396157|v1; weixinIndexVisited=1; ppinf=5|1557989778|1559199378|dHJ1c3Q6MToxfGNsaWVudGlkOjQ6MjAxN3x1bmlxbmFtZTozNzolRTclODMlQkQlRTclODElQUIuJUU4JUJFJUI5JUU1JTlGJThFfGNydDoxMDoxNTU3OTg5Nzc4fHJlZm5pY2s6Mzc6JUU3JTgzJUJEJUU3JTgxJUFCLiVFOCVCRSVCOSVFNSU5RiU4RXx1c2VyaWQ6NDQ6bzl0Mmx1R3RUUlI5TjZ4TnlHbU1lM3luRnpUUUB3ZWl4aW4uc29odS5jb218; pprdig=pDwOzQhJnqC3Kr9aBUzytoY1poJ3CRl9cWXScYt2JCLOhSqZrBEDERHkOrt1190yzK_IKSdAPdUFyo5AOvwgG-XzKCvBh7JJs2Xhg2_LmZA_kp7MvDaiyfXumeWcNjtVRVbkbKYutAzfIPkg1sYOfjcc8L_VCyv4lnLLT8sd8Kc; sgid=29-40667169-AVzdAZL0PsNicLSKyFy900f0; SNUID=CBFF0A6FD8DD5F2BCFC93687D80ADC83; ppmdig=155805432800000015f265f013d784e1a66564ab6b844c13; IPLOC=CN5100; sct=42; JSESSIONID=aaa_Q0ixqZPPi_V9ND1Qw',
20         'Host': 'weixin.sogou.com',
21         'Upgrade-Insecure-Requests': '1',
22         'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36',
23 }
24     session =Session()
25     queue =RedisQueue()
26     mysql =MySQL()
27 
28     def get_proxy(self):...     #该函数代码见前面
29 
30     defstart(self):
31     """
32 初始化工作
33 :return:
34     """
35     #全局更新Headers
36 self.session.headers.update(self.headers)
37     start_url = self.base_url + "?" + urlencode({'query': self.keyword, 'type': 2})
38     weixin_request = WeixinRequest(url=start_url, callback=self.parse_index, need_proxy=True)
39     #调度第一个请求，添加到调度队列
40     self.queue.add(weixin_request)

在这个Spider类中，设置了较多的全局变量，如keyword设置为python，headers为请求头。请求头信息可在浏览器里登录账号后，在开发者工具里将请求头复制出来，一定要带上Cookie字段，这样才能爬取100页的内容。接着初始了 Session 和 RedisQueue对象，它们分别用来执行请求和存储请求。另外还初始化了MySQL对象，这个类在后面进行定义。
在start() 方法中，首先全局更新 headers，使得所有请求都能应用 Cookies。接着构造一个起始URL：https://weixin.sogou.com/weixin?type=2&query=python，随后修改 URL 构造了一个 WeixinRequest对象。回调函数是 Spider 类的parse_index()方法，也当这个请求成功后调用parse_index()来处理和解析。need_proxy 参数设置为 True，代表执行这个请求需要用到代理。随后调用 RedisQueue的add()方法，将这个请求加入队列，等待调度。
6、调度请求
加入第一个请求后，调度开始。首先从队列中取出这个请求，将它的结果解析出来，生成新的请求加入队列，然后拿出新的请求，再生成新的请求加入队列，这样循环执行，直到队列中没有请求，则代表爬取结束。代码如下所示：

1 VALID_STATUSES = [200]
2 defschedule(self):
3     """
4 调度请求
5 :return:
6     """
7     while not self.queue.empty():           #数据库队列不为空
8         weixin_request = self.queue.pop()   #从数据库取出一个WeixinRequest对象，此时 weixin_request 是 WeixiRequest类的实例（对象）
9         callback = weixin_request.callback  #获取回调函数方法
10         print('Schedule', weixin_request.rul)
11         response = self.request(weixin_request)     #调用Spider类的request方法，该方法返回的是响应
12         if response and response.status_code inVALID_STATUSES:
13             results = list(callback(response))      #调用回调函数，回调函数指向两个，分别是：parse_detail()和parse_index()
14             ifresults:
15                 for result inresults:
16                     print('New Result', type(result))
17                     if isinstance(result, WeixinRequest):   #
18                         self.queue.add(result)      #调用 RedisQueue 类的add方法添加到数据库队列中
19                     if isinstance(result, dict):    #如果返回对象是字典类型，就将文章保存到MySQL数据库中
20                         self.mysql.insert('articles', result)   #调用MySQL类中的insert方法
21             else:
22                 self.error(weixin_request)  #调用Spider类中的error函数
23         else:
24             self.error(weixin_request)

这里的 schedule() 方法，其内部是一个循环，循环的判断是队列不为空。当队列不空就调用 pop() 方法取出下一个请求，调用Spider类的 request() 方法执行这个请求，request() 方法实现代码如下：

1 from requests importReadTimeout, ConnectionError
2 defrequest(self, weixin_request):
3     """
4 执行请求
5 :param weixin_request: 请求
6 :return: 响应
7     """
8     try:
9         ifweixin_request.need_proxy:
10             proxy =self.get_proxy()
11             ifproxy:
12                 proxies ={
13                     'http': 'http://' +proxy,
14                     'https': 'https://' +proxy,
15 }
16                 return self.session.send(weixin_request.prepare(),      #调用的是 Request类的 prepare方法
17                                          timeout=weixin_request.timeout, allow_redirects=False, proxies=proxies)
18         return self.session.send(weixin_request.prepare(), timeout=weixin_request.timeout, allow_redirects=False)
19     except(ConnectionError, ReadTimeout) as e:
20         print(e.args)
21         return False

在request()中，首先判断请求是否需要代理，如果需要就调用前面定义的 get_proxy() 方法获取代理，然后调用Session的send()方法执行这个请求。这里请求调用了 prepare() 方法转化为 Prepared Request，该用法的具体信息参考 https://2.python-requests.org//en/master/user/advanced/#prepared-requests，同时设置 allow_redirects 为 False，timeout是该请求的超时时间，最后响应返回。
执行 request() 方法后会得到两种结果：一种是False，请求失败，连接错误；另一种是 Response对象，还需判断状态码，如果状态码合法，就进行解析，否则重新将请求加回队列。状态码合法就调用 WeixinRequest的回调函数进行解析，这里回调函数是 parse_index()，其代码如下所示：

1 from pyquery importPyQuery as pq
2 defparse_index(self, response):
3     """
4 解析索引页面
5 :param response: 响应
6 :return: 新的响应
7     """
8     doc =pq(response.text)
9     #找class为news-box标签下的class为news-list标签下的li标签下的class为txt-box标签下的h3标签下的a标签
10     items = doc('.news-box .news-list li .txt-box h3 a').items()
11     for item initems:
12         #循环执行完后，再去执行下面的 if 语句，也就是当前页请求完后，再请求下一页
13         url = item.attr('href')     #获取文章的链接
14         weixin_request = WeixinRequest(url=url, callback=self.parse_detail)    #parse_detail是Spider类中的方法，通过回调函数获取页面的详细内容
15         yieldweixin_request
16     #获取下一页的标签连接，该标签是a标签，有id属性。值是 sogou_next
17     next = doc('#sogou_next').attr('href')
18     ifnext:
19         url = self.base_url + str(next)     #拼接 url，请求这个 url 切换到下一页
20         #初始化 WeixinRequest，并传入下一页的连接，回调函数调用自身，这时进入到下一页的爬取
21         weixin_request = WeixinRequest(url=url, callback=self.parse_index, need_proxy=True)
22         yield weixin_request

这个parse_index()方法做了两件事，一件事是获取本页的所有微信文章链接，另一件事是获取下一页的链接，再构造成WeixinRequest对象后yield返回。然后 schedule()方法将返回的结果进行遍历，利用 isinstance()方法判断返回结果，如果返回结果是WeixinRequest，就其重新加入队列。
这时，第一次循环结束。while循环继续执行。队列已经包含第一页内容的文章详情页请求和下一页的请求，所以第二次循环得到下一个请求就是文章详情页的请求，程序重新调用 request() 方法获取其响应，然后调用其对应的回调函数解析。解析详情页的回调函数方法一样，这次是 parse_detail() 方法，该方法也封装在 Spider 类，实现代码如下所示：

1 defparse_detail(self, response):
2     """
3 解析详情页
4 :param response: 响应
5 :return: 微信公众号文章
6     """
7     doc = pq(response.text)     #将文本内容转化为 pyquery 对象
8     #将文章内容构造成字典，以便于保存到数据库
9     data ={
10         'title': doc('.rich_media_title').text(),
11         'content': doc('.rich_media_content').text(),
12         'date': doc('#publish_time').text(),
13         'nickname': doc('#js_profile_qrcode > div > strong').text(),
14         'wechat': doc('#js_profile_qrcode > div > p:nth-child(3) > span').text()
15 }
16     yield data

这个 parse_detail() 方法解析微信文章详情页内容，提取出标题、正文文本、发布日期、发布人昵称、微信公众号名称，将这些信息组合成一个字典返回。
返回结果后还需要判断类型，如果是字典类型，程序就调用 mysql 对象的 insert() 方法将数据存入数据库。这时，第二次循环执行完成。第三次循环、第四次循环，循环往复，每个请求都有各自的回调函数，索引页解析完成后继续生成后续请求，详情页解析完成后返回结果以便存储，直到抓取完毕。到此，整个调度基本完成。下面进一步完善整个Spider类代码，完整Spider类代码如下所示：

1 from requests importSession
2 from .redisdb importRedisQueue
3 from .mysql importMySQL
4 from .request importWeixinRequest
5 from urllib.parse importurlencode
6 importrequests
7 from pyquery importPyQuery as pq
8 from requests importReadTimeout, ConnectionError
9 
10 PROXY_POOL_URL = 'http://192.168.64.50:5555/random'
11 VALID_STATUSES = [200]
12 MAX_FAILED_TIME = 20
13 
14 classSpider():
15     base_url = 'https://weixin.sogou.com/weixin'
16     keyword = 'python'
17     headers ={
18         'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
19         'Accept-Encoding': 'gzip, deflate, br',
20         'Accept-Language': 'zh-CN,zh;q=0.9',
21         'Cache-Control': 'max-age=0',
22         'Connection': 'keep-alive',
23         'Cookie': 'CXID=339A2898FD48047A5738650B1D96964B; SUID=53C8B0755B68860A5B6ED3DA000C9B6B; SUV=005D2CADB7DD27195BF21BEFCBBE3709; pgv_pvi=8799300608; ssuid=6762987792; ld=Elllllllll2t033xlllllVhER71lllllTCKCjZllll9lllllVllll5@@@@@@@@@@; LSTMV=51%2C491; LCLKINT=18260; ABTEST=0|1557396157|v1; weixinIndexVisited=1; ppinf=5|1557989778|1559199378|dHJ1c3Q6MToxfGNsaWVudGlkOjQ6MjAxN3x1bmlxbmFtZTozNzolRTclODMlQkQlRTclODElQUIuJUU4JUJFJUI5JUU1JTlGJThFfGNydDoxMDoxNTU3OTg5Nzc4fHJlZm5pY2s6Mzc6JUU3JTgzJUJEJUU3JTgxJUFCLiVFOCVCRSVCOSVFNSU5RiU4RXx1c2VyaWQ6NDQ6bzl0Mmx1R3RUUlI5TjZ4TnlHbU1lM3luRnpUUUB3ZWl4aW4uc29odS5jb218; pprdig=pDwOzQhJnqC3Kr9aBUzytoY1poJ3QAl9cWXScYt2JCLOhSqZrBEDERHkOrt1190yzK_IKSdAPdUFyo5AOvwgG-XzKCvBh7JJs2Xhg2_LmZA_kp7MvDaiyfXumeWcNjtVRVbkbKYutAzfIPkg1sYOfjcc8L_VCyv4lnLLT8sd8Kc; sgid=29-40669169-AVzdCZL0PsNicLSKyFy900f0; SNUID=CBFF0A6FD8DD5F2BCFC93687D80ADC83; ppmdig=155805432800000015f265f013d784e1a66564ab6b844c13; IPLOC=CN5100; sct=42; JSESSIONID=aaa_Q0ixqZPPi_V9ND1Qw',
24         'Host': 'weixin.sogou.com',
25         'Upgrade-Insecure-Requests': '1',
26         'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/73.0.3683.86 Safari/537.36',
27 }
28     session =Session()
29     queue =RedisQueue()
30     mysql =MySQL()
31 
32     defget_proxy(self):
33         """
34 从代理池获取代理
35 :return:
36         """
37         try:
38             response =requests.get(PROXY_POOL_URL)
39             if response.status_code == 200:
40                 print('Get Proxy', response.text)
41                 returnresponse.text
42             returnNone
43         exceptrequests.ConnectionError:
44             returnNone
45 
46     defstart(self):
47         """
48 初始化工作
49 :return:
50         """
51         #全局更新Headers
52 self.session.headers.update(self.headers)
53         start_url = self.base_url + "?" + urlencode({'query': self.keyword, 'type': 2})
54         weixin_request = WeixinRequest(url=start_url, callback=self.parse_index, need_proxy=True)
55         #调度第一个请求，添加到高度队列
56 self.queue.add(weixin_request)
57 
58     defparse_index(self, response):
59         """
60 解析索引页面
61 :param response: 响应
62 :return: 新的响应
63         """
64         doc =pq(response.text)
65         #找class为news-box标签下的class为news-list标签下的li标签下的class为txt-box标签下的h3标签下的a标签
66         items = doc('.news-box .news-list li .txt-box h3 a').items()
67         for item initems:
68             #循环执行完后，再去执行下面的 if 语句，也就是当前页请求完后，再请求下一页
69             url = item.attr('href')     #获取文章的链接
70             weixin_request = WeixinRequest(url=url, callback=self.parse_detail)    #parse_detail是Spider类中的方法，通过回调函数获取页面的详细内容
71             yieldweixin_request
72         #获取下一页的标签连接，该标签是a标签，有id属性。值是 sogou_next
73         next = doc('#sogou_next').attr('href')
74         ifnext:
75             url = self.base_url + str(next)     #拼接 url，请求这个 url 切换到下一页
76             #初始化 WeixinRequest，并传入下一页的连接，回调函数调用自身，这时进入到下一页的爬取
77             weixin_request = WeixinRequest(url=url, callback=self.parse_index, need_proxy=True)
78             yieldweixin_request
79 
80     defparse_detail(self, response):
81         """
82 解析详情页
83 :param response: 响应
84 :return: 微信公众号文章
85         """
86         doc = pq(response.text)     #将文本内容转化为 pyquery 对象
87         #将文章内容构造成字典，以便于保存到数据库
88         data ={
89             'title': doc('.rich_media_title').text(),
90             'content': doc('.rich_media_content').text(),
91             'date': doc('#publish_time').text(),
92             'nickname': doc('#js_profile_qrcode > div > strong').text(),
93             'wechat': doc('#js_profile_qrcode > div > p:nth-child(3) > span').text()
94 }
95         yielddata
96 
97     defrequest(self, weixin_request):
98         """
99 执行请求
100 :param weixin_request: 请求
101 :return: 响应
102         """
103         try:
104             ifweixin_request.need_proxy:
105                 proxy =self.get_proxy()
106                 ifproxy:
107                     proxies ={
108                         'http': 'http://' +proxy,
109                         'https': 'https://' +proxy,
110 }
111                     return self.session.send(weixin_request.prepare(),      #调用的是 Request类的 prepare方法
112                                              timeout=weixin_request.timeout, allow_redirects=False, proxies=proxies)
113             return self.session.send(weixin_request.prepare(), timeout=weixin_request.timeout, allow_redirects=False)
114         except(ConnectionError, ReadTimeout) as e:
115             print(e.args)
116             returnFalse
117 
118     deferror(self, weixin_request):
119         """
120 错误处理
121 :param weixin_request: 请求
122 :return:
123         """
124         weixin_request.fail_time = weixin_request.fail_time + 1
125         print('Request Failed', weixin_request.fail_time, 'Times', weixin_request.url)
126         if weixin_request.fail_time <MAX_FAILED_TIME:
127             self.queue.add(weixin_request)      #小于最大请求失败次数，重新加入数据库队列
128 
129     defschedule(self):
130         """
131 调度请求
132 :return:
133         """
134         while not self.queue.empty():           #数据库队列不为空
135             weixin_request = self.queue.pop()   #从数据库取出一个WeixinRequest对象，此时 weixin_request 是 WeixiRequest类的实例（对象）
136             callback = weixin_request.callback  #获取回调函数方法
137             print('Schedule', weixin_request.rul)
138             response = self.request(weixin_request)     #调用Spider类的request方法，该方法返回的是响应
139             if response and response.status_code inVALID_STATUSES:
140                 results = list(callback(response))      #调用回调函数，回调函数指向两个，分别是：parse_detail()和parse_index()
141                 ifresults:
142                     for result inresults:
143                         print('New Result', type(result))
144                         if isinstance(result, WeixinRequest):   #
145                             self.queue.add(result)      #调用 RedisQueue 类的add方法添加到数据库队列中
146                         if isinstance(result, dict):    #如果返回对象是字典类型，就将文章保存到MySQL数据库中
147                             self.mysql.insert('articles', result)   #调用MySQL类中的insert方法
148                 else:
149                     self.error(weixin_request)  #调用Spider类中的error函数
150             else:
151 self.error(weixin_request)
152 
153     defrun(self):
154         """
155 程序主入口
156 :return:
157         """
158 self.start()
159 self.schedule()
160 
161 
162 if __name__ == '__main__':
163     spider =Spider()
164     spider.run()

最后加入的一个run() 方法作为入口，启动时只需要执行Spider的run()方法即可。
7、 MySQL存储
调度模块完成后，还要定义一个MySQL类供存储数据。代码实现如下：

1 importpymysql
2 
3 MYSQL_HOST = '192.168.54.50'
4 MYSQL_PORT = 3508
5 MYSQL_USER = 'root'
6 MYSQL_PASSWORD = 'wyic123456'
7 MYSQL_DATABASE = 'weixin'
8 
9 classMySQL():
10     def __init__(self, host=MYSQL_HOST, username=MYSQL_USER, password=MYSQL_PASSWORD, port=MYSQL_PORT,
11                  database=MYSQL_DATABASE):
12         """
13 MySQL初始化
14 :param host:
15 :param username:
16 :param password:
17 :param port:
18 :param database:
19         """
20         try:
21             self.db = pymysql.connect(host, username, password, database, charset='utf8', port=port)
22             self.cursor =self.db.cursor()
23         exceptpymysql.MySQLError as e:
24             print(e.args)
25 
26     definsert(self, table, data):
27         """
28 插入数据
29 :param table: 表名
30 :param data: 数据
31 :return:
32         """
33         keys = ', '.join(data.keys())
34         values = ', '.join(['%s'] *len(data))
35         sql_query = 'insert into %s (%s) values (%s)' %(table, keys, values)
36         try:
37 self.cursor.excute(sql_query, tuple(data.values()))
38 self.db.commit()
39         exceptpymysql.MySQLError as e:
40             print(e.args)
41             self.db.rollback()

在MySQL类中，初始化方法初始化了MySQL的连接，需要提供MySQL的用户名、密码、端口、数据库名等信息。数据库名为 weixin，需
要在数据库中提前创建。创建命令是：
create database weixin charset utf8;
insert()方法传入表名和字典即可动态构造SQL，SQL构造之后执行即可插入数据。另外还需要提前在数据库中建立一个数据表，表名是articles，建表的SQL命令是：
create table articles (
id int(11) NOT NULL,
title varchar(255) NOT NULL,
content text NOT NULL,
date varchar(255),
wechat varchar(255) NOT NULL,
nickname varchar(255) NOT NULL
) default charset=utf8;
alter table articles add primary key (`id`);
到此，这个爬虫项目基本算是完成了，接下来就是运行这个项目。
8、运行
首先运行前面搭建的代理池，待代理池运行一会儿后，再运行Spider类中的主程序入口。代码运行成功，但爬取失败，不知是不是搜狗微信的反爬措施太强而造成的。

第九部分代理的使用（代理设置，代理池的搭建，用代理获取微信公众号文章）

相关文章

python学习（3）--读取配置文件

前端常见跨域解决方案

网页引用Font Awesome图标

Python的几个爬虫代码整理（网易云、微信、淘宝、今日头条）

redis-删除所有key

JavaScript History 对象

最新文章

随机推荐

思享工具箱导航

JSON工具

格式化转换

加解密编码

文本数字

网络

站长

计算

其他

对照列表

第九部分 代理的使用（代理设置，代理池的搭建，用代理获取微信公众号文章）