爬虫之汽车之家（request）汽车之家爬虫接口

爬虫之汽车之家（request）

摘要：

#!/usr/bin/env python
#-*- coding:utf-8 -*-
# requests:用来下载网页源代码的,等同urlopen()
#Beautiful Soup，解析html,替代正则部分re
#Html
#BeautifulSoup().find("a")
import requests
import bs4
from bs4 import BeautifulSoup

#拿到汽车之家的首页源代码
#urlopen(url).read.decode
main_page_content=requests.get("https://www.autohome.com.cn/weifang/").text
#把页面源代码交给bs4解析
main_page=BeautifulSoup(main_page_content,"html.parser")
#可以进行标签的定位
main_div=main_page.find(name="div",attrs={"class":"people-content"})
main_ul=main_div.find(name="ul",attrs={"class":"list-text"})
main_a_lst=main_ul.find_all("a")#这是一个列表，a标签列表
n=1
for a in main_a_lst:
    #从标签中获取一个属性
    one_page_url="https:"+a.get("href")
    print("====>",one_page_url)
    one_page_content=requests.get(one_page_url).text
    one_page_content=one_page_content.replace("</br>","")#替换掉所有的</br>
    one_page=BeautifulSoup(one_page_content,"html.parser")
    img_lst=one_page.find("div",attrs={"class":"journey-item-list"}).find_all("img")
    for img in img_lst:
        #拿到图片的的src
        download_url=img.get("data-original")
        if not download_url:
            download_url = img.get("src")
        print(download_url)
        #下载图片
        f = open("img/汽车之家图片%s.jpg"% n,mode="wb")
        f.write( requests.get(download_url).content)
        f.close()
        n=n+1
        print("你成功的从汽车之家偷走了一张图片")

免责声明：文章转载自《爬虫之汽车之家（request）》仅用于学习参考。如对内容有疑问，请及时联系本站处理。

python爬虫学习---爬取微软必应翻译（中英互译）

前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。作者：OSinooO 本人属于python新手，刚学习的 python爬虫基础迫不及待地想试一试，看了论坛里大佬们写的在线翻译爬虫程序，想着自己把它写出来，以下是我爬微软翻译的过程，作为笔记记录下来： 1.获取信...

Python爬虫学习教程：天猫商品数据爬虫

天猫商品数据爬虫使用教程下载chrome浏览器查看chrome浏览器的版本号，下载对应版本号的chromedriver驱动 pip安装下列包 pip install selenium pip install pyquery 登录微博，并通过微博绑定淘宝账号密码在main中填写chromedriver的绝对路径在main中填写微博账号密码 1...

爬虫和数据

一为什么要做爬虫？首先请问：都说现在是"大数据时代"，那数据从何而来？企业产生的用户数据:百度指数：http://index.baidu.com/阿里指数：https://alizs.taobao.com/TBI腾讯浏览指数：http://tbi.tencent.com/新浪微博指数：http://data.weibo.com/index 数...

python爬虫入门01：教你在 Chrome 浏览器轻松抓包

通过 python爬虫入门：什么是爬虫，怎么玩爬虫？我们知道了什么是爬虫也知道了爬虫的具体流程那么在我们要对某个网站进行爬取的时候要对其数据进行分析就要知道应该怎么请求就要知道获取的数据是什么样的所以我们要学会怎么抓咪咪！哦，不对。我们要学会怎么数据抓包虽然小馒头也是包的一种 ok...anyway... 打开我们的 Chrome...

python基础整理6——爬虫基础知识点

爬虫基础什么是爬虫：网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。通用爬虫和聚焦爬虫根据使用场景，网络爬虫可分为通用爬虫和聚焦爬虫两种. 通用爬虫通用网络爬虫是捜索引擎抓取系...

Scrapy+eChart自动爬取生成网络安全词云

因为工作的原因，近期笔者开始持续关注一些安全咨询网站，一来是多了解业界安全咨询提升自身安全知识，二来也是需要从各类安全网站上收集漏洞情报。作为安全情报领域的新手，面对大量的安全咨询，多少还是会感觉无从下手力不从心。周末闲来无事，突发奇想，如果搞个爬虫，先把网络安全类文章爬下来，然后用机器学习先对文章进行分析，自动提取文章主成分关键词，然后再根据实际需求有...

爬虫之汽车之家（request）

相关文章

python爬虫学习---爬取微软必应翻译（中英互译）

Python爬虫学习教程：天猫商品数据爬虫

爬虫和数据

python爬虫入门01：教你在 Chrome 浏览器轻松抓包

python基础整理6——爬虫基础知识点

Scrapy+eChart自动爬取生成网络安全词云

最新文章

随机推荐

思享工具箱导航

JSON工具

格式化转换

加解密编码

文本数字

网络

站长

计算

其他

对照列表