Hive文件格式

一、文件定义ORC File,它的全名是 Optimized Row Columnar (ORC) file,其实就是对 RCFile 做了一些优化。据官方文档介绍,这种文件格式可以提供一种高效的方法来存储 Hive 数据。它的设计目标是来克服 Hive 其他格式的缺陷。运用 ORC File 可以提高 Hive 的读、写以及处理数据的性能。和 RCFile 格式相比,ORC File 格式有以下优点:1、每个 task 只输出单个文件,这样可以减少 NameNode 的负载;2、支持各种复杂的数据类型,比如: datetime, decimal, 以及一些复杂类型 struct, list, ...