各种数据分析工具所能处理的数据量大概是多少?

摘要:
一般来说,处理规模小于100万行的数据是合适的。因此,我们认为像MySQL这样的数据库处理单个表小于5000万行或小于10G的数据是合适的。① 独立Spark在独立状态下,Spark可以操作的唯一数据是本地磁盘上的数据。数据量取决于本地磁盘的容量。

数据科学交流群,群号:189158789 ,欢迎各位对数据科学感兴趣的小伙伴的加入!

1.Excel

Excel 处理的单表最大数据量为1048576行和16384列。一般来说处理规模在100万行以下的数据较为合适。

2.PowerBI

PowerBI Desktop一般处理的数据在1G左右再往上就会很卡,一般处理的规模在不大于1G或者说1000万行以下的数据较为合适。

3.MySQL

关于MySQL:

据D.V.B 团队以及Cmshelp 团队做CMS 系统评测时的结果来看,MySQL单表大约在2千万条记录(4G)下能够良好运行,经过数据库的优化后5千万条记录(10G)下运行良好。

所以我们姑且认为MySQL这样类似的数据库可以处理大概单表小于5000万行或者小于10G的数据比较合适。

4.Python:

Python做数据分析时一般会拥有一些常用的库,我们这里只说两个,一个是Pandas,另外一个是PySpark。

1)Pandas

与其他工具不同的时,pandas没有明显的行数限制,跟内存有关,可以参考网友的一篇文章:

最近,我用pandas处理了一把大数据…… - 知乎
https://zhuanlan.zhihu.com/p/272115312

这篇文章中提到:对于一个2G的文件,读取过程中内存占用会达到4G左右,大概是实际文件体积的两倍。

一般用户的单机内存在8-16G左右,有的可能到达32G,抛去4-8个G的系统占用,可以知道,实际能给Pandas做数据处理的空间很有限,一次最多加载几G到十几G的数据,这个处理量可以理解为比较适合处理1亿行(20G)一下的数据!

2)PySpark

Spark虽然是in memory的运算平台,但从官方资料看,似乎本身对内存的要求并不是特别苛刻。官方网站只是要求内存在8GB之上即可(Impala要求机器配置在128GB)Spark建议需要提供至少75%的内存空间分配给Spark,至于其余的内存空间,则分配给操作系统与buffer cache。

如果当系统内存不足的时候,spark 会将数据落地到磁盘,将 spark 当成 mapreduce的方式解决内存不足的问题。

①单机spark

在单机状态下,Spark能操作的数据只有本地磁盘上的数据,这个数据量取决你的本地磁盘容量大小。一般用户的电脑磁盘容量在500G到1T之间,所以我们可以大致得到使用此方式来处理1TB以下的数据量!

②分布式spark

在分布式状态下,Spark可以处理Hadoop生态中HDFS文件系统上的数据,这个数据量理论上是无上限的,因为分布式存储,其容量是可以通过增加节点的方式来扩展的,使得处理TB甚至PB级数据量成为可能!

数据科学交流群,群号:189158789 ,欢迎各位对数据科学感兴趣的小伙伴的加入!

免责声明:文章转载自《各种数据分析工具所能处理的数据量大概是多少?》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇质因子分解——Prime Factors遇到Visual Studio "当前不会命中断点.还没有为该文档加载任何符号"的情况下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

Google准实时数据仓库Mesa(一)

本文来自网易云社区 作者:王潘安 以下是本人在学习Google的Mesa数据仓库论文的记录,翻译出来给大家分享,翻译水平有限,请多多包涵。因论文比较长,本人将论文按照Mesa不同的模块分开翻译,方便阅读。 摘要:Mesa是一个可伸缩性的分析型数据仓库系统,它主要为Google的互联网广告业务服务。Mesa的设计是为了满足一系列的来自用户和系统的复杂的挑...

根据查询条件批量修改表数据

--表:table  --字段:columsA、columsB、columsC、columsD void Main(){ string sql="select columsA from table"; DataTable dt=SqlHelper.executeQuery(sql); dt.rows[0]["columsA"]="111"; sdaUpda...

人脸识别和检测中错误数据的三种类别

1.错误标记 即标记该图时就已经出错 2.假阴性: 即该图本应该判断正样本的,但是可能因为照片中化妆、带眼镜、人物造型变化比较大或是遮挡等原因导致它被误判为负样本 3.假阳性: 即该图本应该判断负样本的,但是可能因为其与正样本人的五官非常相似,所以被误判为正样本...

数据仓库项目中的数据建模和ETL日志体系

数据仓库项目跨功能需求开发不够完善,导致的各种问题,就我个人经验来说,主要体现在数据建模不够标准和 ETL 日志体系不够完善两个方面,本文会详细介绍一下,如何从跨功能需求的角度,构建标准的数据建模和完善的 ETL 日志体系。   对于一个软件来说,分为功能需求和跨功能需求(Cross-Functional Requirements, CFR)。功能需求,一...

数据仓库开发——Kettle使用示例

Kettle是一个开园ETL工具,做数据仓库用Spoon。 工具:下载Spoon,解压即可用 1、认识常用组件: 表输入 插入\更新 数据同步 文本文件输出 更新 自动文档输出 表输出 列转行 增加常量 增加序列 排序记录 行转列 过滤记录 数据库连接 合并记录 排序合并 记录关联(笛卡尔输出) 记录集连接 分组 在内存中分组 2、第一个例子 生成 10...

Visio 2007中进行数据库建模时如何显示字段类型以及概念名称

关于在VISIO中进行数据库建模时如何显示字段类型,以及注释的 1 如何显示字段类型:   在visio菜单上--->点击数据库--->选项--->文档    打开后选择表这项,在上面找到"数据类型",选择显示物理的,这样在visio的数据库模型上就会出现字段类型啦 2 如何显示注释/概念名称   在visio菜单上--->点击数据...