Parquet文件结构笔记,生成parquet文件

Parquet文件结构笔记

摘要：

Parquet文件由页眉和一个或多个块组成，以页脚结尾。标头仅包含一个4字节的数字PAR1，用于标识整个Parquet文件格式。Parquet格式文件不需要同步标记，因此块的边界存储在页脚的meatada中。在Parquet文件中，每个块都有一组Rowgroup，它们是由一组Columnchunk组成的列数据。另一方面，Parquet文件支持每个页面的标准压缩算法，例如Snappy、gzip和LZO压缩格式，并且不支持压缩。

　　Parquet是面向分析型业务的列式存储格式，由Twitter和Cloudera合作开发，2015年5月从Apache的孵化器里毕业成为Apache顶级项目，那么这里就总结下Parquet数据结构到底是什么样的呢？

　　一个Parquet文件是由一个header以及一个或多个block块组成，以一个footer结尾。header中只包含一个4个字节的数字PAR1用来识别整个Parquet文件格式。文件中所有的metadata都存在于footer中。footer中的metadata包含了格式的版本信息，schema信息、key-value paris以及所有block中的metadata信息。footer中最后两个字段为一个以4个字节长度的footer的metadata,以及同header中包含的一样的PAR1。

　　读取一个Parquet文件时，需要完全读取Footer的meatadata，Parquet格式文件不需要读取sync markers这样的标记分割查找，因为所有block的边界都存储于footer的metadata中(因为metadata的写入是在所有blocks块写入完成之后的，所以吸入操作包含的所有block的位置信息都是存在于内存直到文件close）

　　这里注意，不像sequence files以及Avro数据格式文件的header以及sync markers是用来分割blocks。Parquet格式文件不需要sync markers，因此block的边界存储与footer的meatada中。

Parquet文件结构笔记第1张

　　在Parquet文件中，每一个block都具有一组Row group,她们是由一组Column chunk组成的列数据。继续往下，每一个column chunk中又包含了它具有的pages。每个page就包含了来自于相同列的值.Parquet同时使用更紧凑形式的编码，当写入Parquet文件时，它会自动基于column的类型适配一个合适的编码，比如，一个boolean形式的值将会被用于run-length encoding。

　　另一方面，Parquet文件对于每个page支持标准的压缩算法比如支持Snappy,gzip以及LZO压缩格式，也支持不压缩。

　　Parquet格式的数据类型：

Parquet文件结构笔记第2张

参考: 《Hadoop:The Definitive Guide, 4th Edition》

免责声明：文章转载自《Parquet文件结构笔记》仅用于学习参考。如对内容有疑问，请及时联系本站处理。

Parquet文件结构笔记

相关文章

ApacheHudi常见问题汇总

namenode无法启动（namenode格式化失败）

SparkSQL学习笔记

Spark SQL 编程（七）

Databricks 第5篇：Databricks文件系统（DBFS）

【原创】大数据基础之Benchmark（4）TPC-DS测试结果（hive/hive on spark/spark sql/impala/presto）

最新文章

随机推荐

思享工具箱导航

JSON工具

格式化转换

加解密编码

文本数字

网络

站长

计算

其他

对照列表