爬虫和数据

摘要:
一为什么要做爬虫?HTTPS简单讲是HTTP的安全版,在HTTP下加入SSL层。SSL主要用于Web的安全传输协议,在传输层对网络连接进行加密,保障在Internet上数据传输的安全。HTTP的端口号为80,HTTPS的端口号为443
一为什么要做爬虫?

首先请问:都说现在是"大数据时代",那数据从何而来?

  1. 企业产生的用户数据:
    百度指数:http://index.baidu.com/
    阿里指数:https://alizs.taobao.com/
    TBI腾讯浏览指数:http://tbi.tencent.com/
    新浪微博指数:http://data.weibo.com/index
  2. 数据平台购买数据:
    数据堂:http://www.datatang.com/about/about-us.html
    国云数据市场:http://www.moojnn.com/data-market/
    贵阳大数据交易所:http://trade.gbdex.com/trade.web/index.jsp
  3. 政府/机构公开的数据:
    中华人民共和国国家统计局数据:http://data.stats.gov.cn/index.htm
    世界银行公开数据:http://data.worldbank.org.cn/
    联合国数据:http://data.un.org/
    纳斯达克:http://www.nasdaq.com/zh
  4. 数据管理咨询公司:
    麦肯锡:http://www.mckinsey.com.cn/
    埃森哲:https://www.accenture.com/cn-zh/
    艾瑞咨询:http://www.iresearch.com.cn/
二关于Python爬虫,我们需要学习的有
1. Python基础语法学习(基础知识)
2. HTML页面的内容抓取(数据抓取)
3. HTML页面的数据提取(数据清洗)
4. 指定要求格式的数据存储(主要是mysql,redis,mongodb数据库的存储)
5. Scrapy框架以及scrapy-redis分布式策略(第三方框架)
三HTTP和HTTPS

HTTP协议(HyperText Transfer Protocol,超文本传输协议):是一种发布和接收 HTML页面的方法。是规范。买卖东西一样。

HTTPS(Hypertext Transfer Protocol over Secure Socket Layer)简单讲是HTTP的安全版,在HTTP下加入SSL层。

SSL(Secure Sockets Layer 安全套接层)主要用于Web的安全传输协议,在传输层对网络连接进行加密,保障在Internet上数据传输的安全。

HTTP的端口号为80,

HTTPS的端口号为443

免责声明:文章转载自《爬虫和数据》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇Java-最常用的Java日志框架整理yum install hadoop related client下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

Linux查询网址

1、man查询手册 LINUX MAN PAGES ONLINE: http://man.he.net/ 2、编码规范 https://www.kernel.org/doc/Documentation/CodingStyle 3、深度开源 http://www.open-open.com/solution/view/1319816219625 4、GPLV...

windows用navict for mongo 把mongo 数据库中的数据全部导入另一个数据库

mongodb 在导出数据的可以使用命令,也可以使用navicat 这种可视化软件,我就选择的使用navicat 转移数据。 具体的业务场景是,线上的数据,导入到测试环境一份,供前端调试。 使用navicat for mongo 要安装navict 还要,安装mongodb-database-tools-windows-x86_64-100.5.1.m...

Fiddler的详细介绍

Fiddler的详细介绍 一、Fiddler与其他抓包工具的区别 1、Firebug虽然可以抓包,但是对于分析http请求的详细信息,不够强大。模拟http请求的功能也不够,且firebug常常是需要“无刷新修改”,如果刷新了页面,所有的修改都不会保存; 2、Wireshark是通用的抓包工具,能获取HTTP,也能获取HTT...

大数据测试总结

前言        随着各个国家使用大数据应用程序或应用大数据技术场景的数量呈指数增长,相应的,对于测试大数据应用时所需的知识与大数据测试工程师的需求也在同步增加。医疗、能源、通信、零售业、金融、体育等各行业都可以从其数据的采集、传输、存储、分析等各个环节产生巨大的经济价值,马爸爸认为,未来的时代将不是IT时代,而是DT的时代,即Data Technolo...

C# 连接Oracle数据库,免安装oracle客户端

一、方案1 首先下面的内容,有待我的进一步测试和证实。18.12.20 被证实了,还需要安装Oracle客户端,或者本机上安装oracle数据库软件。 18.12.20 1.下载Oracle.ManagedDataAccess.dll 2.添加到C#引用 3.命名空间引用 using Oracle.ManagedDataAccess.Client; 4....

一次SQLServer数据库宕机问题

数据库采用SQL Server 2005版本, 数据库文件约为6G,而LDF日志文件已经高达36G。 服务器开始变的不太稳定 。数据没有成功保存。 打开事件查看器发现很多信息日志 数据库 '' 中的文件 '_log' 的自动增长已由用户取消,或已在 30031 毫秒后超时。请使用 ALTER DATABASE 为此文件设置较小的 FILEGROWTH 值...