Hive文件格式

一、文件定义

ORC File,它的全名是 Optimized Row Columnar (ORC) file,其实就是对 RCFile 做了一些优化。
据官方文档介绍,这种文件格式可以提供一种高效的方法来存储 Hive 数据。它的设计目标是来克服 Hive 其他格式的缺陷。
运用 ORC File 可以提高 Hive 的读、写以及处理数据的性能。
和 RCFile 格式相比,ORC File 格式有以下优点:
1、每个 task 只输出单个文件,这样可以减少 NameNode 的负载;
2、支持各种复杂的数据类型,比如: datetime, decimal, 以及一些复杂类型 struct, list, map, and union;
3、在文件中存储了一些轻量级的索引数据;
4、基于数据类型的块模式压缩:
a、integer 类型的列用行程长度编码 run-length encoding;
b、String 类型的列用字典编码 dictionary encoding;
5、用多个互相独立的 RecordReaders 并行读相同的文件;
6、无需扫描 markers 就可以分割文件;
7、绑定读写所需要的内存;
8、metadata 的存储是用 Protocol Buffers 的,所以它支持添加和删除一些列。

二、文件结构

ORC File 包含一组组的行数据,称为 stripes,除此之外,ORC File 的 file footer 还包含一些额外的辅助信息。
在 ORC File 文件的最后,有一个被称为 postscript 的区,它主要是用来存储压缩参数及压缩页脚的大小。
在默认情况下,一个 stripe 的大小为 250MB。大尺寸的 stripes 使得从 HDFS 读数据更高效。
在 file footer 里面包含了该 ORC File 文件中 stripes 的信息,每个 stripe 中有多少行,以及每列的数据类型。
当然,它里面还包含了列级别的一些聚合的结果,比如:count, min, max, and sum。
下图显示出可 ORC File 文件结构:
image.png

三、Stripe 结构

从上图我们可以看出,每个 Stripe 都包含 index data、row data 以及 stripe footer。Stripe footer 包含流位置的目录;Row data 在表扫描的时候会用到。
Index data 包含每列的最大和最小值以及每列所在的行。
行索引里面提供了偏移量,它可以跳到正确的压缩块位置。具有相对频繁的行索引,使得在 stripe 中快速读取的过程中可以跳过很多行,尽管这个 stripe 的大小很大。
在默认情况下,最大可以跳过 10000 行。拥有通过过滤谓词而跳过大量的行的能力,你可以在表的 secondary keys 进行排序,从而可以大幅减少执行时间。
比如你的表的主分区是交易日期,那么你可以对次分区(state、zip code 以及 last name)进行排序。

四、Hive 里面如何用 ORCFile

在建 Hive 表的时候我们就应该指定文件的存储格式。所以你可以在 Hive QL 语句里面指定用 ORCFile 这种文件格式,如下:

CREATE TABLE ... STORED AS ORC
ALTER TABLE ... [PARTITION partition_spec] SET FILEFORMAT ORC
SET hive.default.fileformat=Orc

所有关于 ORCFile 的参数都是在 Hive QL 语句的 TBLPROPERTIES 字段里面出现,他们是:

Key Default Notes
orc.compress ZLIB high level compression (one of NONE, ZLIB, SNAPPY)
orc.compress.size 262,144 number of bytes in each compression chunk
orc.stripe.size 268435456 number of bytes in each stripe
orc.row.index.stride 10,000 number of rows between index entries (must be >= 1000)
orc.create.index true whether to create row indexes

下面的例子是建立一个没有启用压缩的 ORCFile 的表

create table Addresses (
  name string,
  street string,
  city string,
  state string,
  zip int
) stored as orc tblproperties ("orc.compress"="NONE");

五、序列化和压缩

对 ORCFile 文件中的列进行压缩是基于这列的数据类型是 integer 或者 string。具体什么序列化我就不涉及了。
想深入了解的可以看看下面的英文:
Integer Column Serialization
Integer columns are serialized in two streams.
1、present bit stream: is the value non-null?
2、data stream: a stream of integers
Integer data is serialized in a way that takes advantage of the common distribution of numbers:
1、Integers are encoded using a variable-width encoding that has fewer bytes for small integers.
2、Repeated values are run-length encoded.
3、Values that differ by a constant in the range (-128 to 127) are run-length encoded.
The variable-width encoding is based on Google’s protocol buffers and uses the high bit to represent whether this byte is not the last and the lower 7 bits to encode data. To encode negative numbers, a zigzag encoding is used where 0, -1, 1, -2, and 2 map into 0, 1, 2, 3, 4, and 5 respectively.

Each set of numbers is encoded this way:
1、If the first byte (b0) is negative:
-b0 variable-length integers follow.
2、If the first byte (b0) is positive:
it represents b0 + 3 repeated integers
the second byte (-128 to +127) is added between each repetition
1 variable-length integer.
In run-length encoding, the first byte specifies run length and whether the values are literals or duplicates. Duplicates can step by -128 to +128. Run-length encoding uses protobuf style variable-length integers.

String Column Serialization
Serialization of string columns uses a dictionary to form unique column values The dictionary is sorted to speed up predicate filtering and improve compression ratios.
String columns are serialized in four streams.
1、present bit stream: is the value non-null?
2、dictionary data: the bytes for the strings
3、dictionary length: the length of each entry
4、row data: the row values
Both the dictionary length and the row values are run length encoded streams of integers.

https://alicharles.oss-cn-hangzhou.aliyuncs.com/static/images/mp_qrcode.jpg
文章目录
  1. 一、文件定义
  2. 二、文件结构
  3. 三、Stripe 结构
  4. 四、Hive 里面如何用 ORCFile
  5. 五、序列化和压缩