数据仓库的概念（四）：全量表、增量表、拉链表、流水表、快照表 - 博客文章

教程索引目录请访问：《大数据技术入门级系列教程》

上一篇文章我们了解了事实表、维度表和星型模型、雪花模型，除了这些在行业中还有一些专业名词需要了解，本篇文章将带你了解大数据行业“黑话”全量表、增量表、拉链表、流水表、快照表都是什么。可能下面的一些内容理解不了，等到搞 hive 的时候就知道了，先了解一下基本的知识。

全量表

跟它的名字一样好理解，就是全部数据，不管是旧的还是新的全都要，不分区，所有数据都储存在一个分区中，记录的是总量。

增量表

增量也非常好理解，截止到上次导出以后新增的数据就是增量了，只报变化的数据，没有变化的数据不用报，每天一个分区，记录的是增加的量。

快照表

根据它的名字，感觉是给数据照相，其实就是获取某个时间段内全部数据，咔嚓一声照个相，快门打开的这一段时间，也就是这个时间段内所有的数据被保存下来就是快照，每次上报的都是一个时间段内全部数据，每天一个分区。

拉链表

上面的表都比较常见，但这个拉链表可能有的同学就没见过了，重点说一下这个没见过的。

拉链表通常是对信息的历史变动进行处理保留的结果，也就说它是为了保持历史的一些状态，这样做目的在可以保留所有状态的情况下可以节省空间。

比如数据量很大，其中有些字段会变化，但是变化的频率比较低，可能好几个月好几年才变化一次，业务需要统计这种变化状态，每天做个全量在数据量大的情况下是不现实的，可能很快磁盘容量就不够了，这个时候就用到拉链表了。

比较有特点的是购物订单的状态变化，状态可能是下单、支付、发货、完成，甚至还有退货等分支状态，需求是可以查看订单在历史某一时间点的状态，咱们就先按正常的下单、支付、发货、完成的流程来演示拉链表：

start_date：表示该条记录生命周期开始时间
end_date：表示该条记录的生命周期结束时间
end_date = ‘9999-12-31 23:59:59’表示该条记录目前处于有效状态，也叫封链时间

下面是一张拉链表，存储的是订单基本信息和每条记录的生命周期。我们可以使用这种表拿到最新的当天的最新数据和之前的历史某一时间点的数据。

订单编号	用户名	状态	start_date	end_date
12345678	任霏	完成	2021-01-07 18:24:55	9999-12-31 23:59:59
25478512	张三	支付	2021-01-03 15:45:36	9999-12-31 23:59:59
12345678	任霏	发货	2021-01-04 10:32:15	2021-01-07 18:24:54
12345678	任霏	支付	2021-01-03 15:45:24	2021-01-04 10:32:14
25478512	张三	下单	2021-01-03 15:40:21	2021-01-03 15:45:36
12345678	任霏	下单	2021-01-03 15:40:20	2021-01-03 15:45:23

如果查询当前订单’12345678‘的状态，则 select * from order where end_date = ‘9999-12-31 23:59:59’ and 订单编号 = ‘12345678’，我们就能拿到状态是“完成”状态

如果查询订单’12345678‘在 2021-01-04 08:32:14 这个时间点的状态，则select * from order where start_date<=‘2021-01-04 08:32:14’ and end_date>=‘2021-01-04 08:32:14’ and 订单编号 = ‘12345678’，我们就能拿到状态是“支付”状态

流水表

正如它的名字，流水记录，每次数据变更都会形成一条记录，可以用于反映实际记录的变更历史。流水表与拉链表也有些类似，不同的是拉链表可以根据拉链粒度存储数据，也就是只存储特定维度的数据变化记录；而流水表存储的是每一个修改记录。

全量表

增量表

快照表

拉链表

流水表

相关推荐

Hadoop入门教程（八）：DataNode 工作原理

Hadoop入门教程（七）：HDFS 数据读写流程

Hadoop入门教程（六）：Hadoop API 使用编程的方式操作 HDFS

Hadoop入门教程（五）：HDFS 分布式文件系统

Hadoop入门教程（四）：Hadoop 完全分布式集群环境

Hadoop入门教程（三）：Hadoop 单节点本地运行与伪分布式