各种数据分析工具大概能处理多少数据量？什么工具可以进行数据分析

各种数据分析工具所能处理的数据量大概是多少？

摘要：

一般来说，处理规模小于100万行的数据是合适的。因此，我们认为像MySQL这样的数据库处理单个表小于5000万行或小于10G的数据是合适的。① 独立Spark在独立状态下，Spark可以操作的唯一数据是本地磁盘上的数据。数据量取决于本地磁盘的容量。

数据科学交流群，群号：189158789 ，欢迎各位对数据科学感兴趣的小伙伴的加入！

1.Excel

Excel 处理的单表最大数据量为1048576行和16384列。一般来说处理规模在100万行以下的数据较为合适。

2.PowerBI

PowerBI Desktop一般处理的数据在1G左右再往上就会很卡，一般处理的规模在不大于1G或者说1000万行以下的数据较为合适。

3.MySQL

关于MySQL：

据D.V.B 团队以及Cmshelp 团队做CMS 系统评测时的结果来看，MySQL单表大约在2千万条记录（4G）下能够良好运行，经过数据库的优化后5千万条记录（10G）下运行良好。

所以我们姑且认为MySQL这样类似的数据库可以处理大概单表小于5000万行或者小于10G的数据比较合适。

4.Python：

Python做数据分析时一般会拥有一些常用的库，我们这里只说两个，一个是Pandas，另外一个是PySpark。

1）Pandas

与其他工具不同的时，pandas没有明显的行数限制，跟内存有关，可以参考网友的一篇文章：

最近，我用pandas处理了一把大数据…… - 知乎
https://zhuanlan.zhihu.com/p/272115312

这篇文章中提到：对于一个2G的文件，读取过程中内存占用会达到4G左右，大概是实际文件体积的两倍。

一般用户的单机内存在8-16G左右，有的可能到达32G，抛去4-8个G的系统占用，可以知道，实际能给Pandas做数据处理的空间很有限，一次最多加载几G到十几G的数据，这个处理量可以理解为比较适合处理1亿行（20G）一下的数据！

2）PySpark

Spark虽然是in memory的运算平台，但从官方资料看，似乎本身对内存的要求并不是特别苛刻。官方网站只是要求内存在8GB之上即可（Impala要求机器配置在128GB）Spark建议需要提供至少75%的内存空间分配给Spark，至于其余的内存空间，则分配给操作系统与buffer cache。

如果当系统内存不足的时候,spark 会将数据落地到磁盘,将 spark 当成 mapreduce的方式解决内存不足的问题。

①单机spark

在单机状态下，Spark能操作的数据只有本地磁盘上的数据，这个数据量取决你的本地磁盘容量大小。一般用户的电脑磁盘容量在500G到1T之间，所以我们可以大致得到使用此方式来处理1TB以下的数据量！

②分布式spark

在分布式状态下，Spark可以处理Hadoop生态中HDFS文件系统上的数据，这个数据量理论上是无上限的，因为分布式存储，其容量是可以通过增加节点的方式来扩展的，使得处理TB甚至PB级数据量成为可能！

数据科学交流群，群号：189158789 ，欢迎各位对数据科学感兴趣的小伙伴的加入！

各种数据分析工具所能处理的数据量大概是多少？

1）Pandas

2）PySpark

①单机spark

②分布式spark

相关文章

Google准实时数据仓库Mesa（一）

根据查询条件批量修改表数据

人脸识别和检测中错误数据的三种类别

数据仓库项目中的数据建模和ETL日志体系

数据仓库开发——Kettle使用示例

Visio 2007中进行数据库建模时如何显示字段类型以及概念名称

最新文章

随机推荐

思享工具箱导航

JSON工具

格式化转换

加解密编码

文本数字

网络

站长

计算

其他

对照列表