数据仓库的概念(四):全量表、增量表、拉链表、流水表、快照表
2021年02月05日 10:47:52 · 本文共 1,054 字阅读时间约 3分钟 · 9,524 次浏览上一篇文章我们了解了事实表、维度表和星型模型、雪花模型,除了这些在行业中还有一些专业名词需要了解,本篇文章将带你了解大数据行业“黑话”全量表、增量表、拉链表、流水表、快照表都是什么。可能下面的一些内容理解不了,等到搞 hive 的时候就知道了,先了解一下基本的知识。
全量表
跟它的名字一样好理解,就是全部数据,不管是旧的还是新的全都要,不分区,所有数据都储存在一个分区中,记录的是总量。
增量表
增量也非常好理解,截止到上次导出以后新增的数据就是增量了,只报变化的数据,没有变化的数据不用报,每天一个分区,记录的是增加的量。
快照表
根据它的名字,感觉是给数据照相,其实就是获取某个时间段内全部数据,咔嚓一声照个相,快门打开的这一段时间,也就是这个时间段内所有的数据被保存下来就是快照,每次上报的都是一个时间段内全部数据,每天一个分区。
拉链表
上面的表都比较常见,但这个拉链表可能有的同学就没见过了,重点说一下这个没见过的。
拉链表通常是对信息的历史变动进行处理保留的结果,也就说它是为了保持历史的一些状态,这样做目的在可以保留所有状态的情况下可以节省空间。
比如数据量很大,其中有些字段会变化,但是变化的频率比较低,可能好几个月好几年才变化一次,业务需要统计这种变化状态,每天做个全量在数据量大的情况下是不现实的,可能很快磁盘容量就不够了,这个时候就用到拉链表了。
比较有特点的是购物订单的状态变化,状态可能是下单、支付、发货、完成,甚至还有退货等分支状态,需求是可以查看订单在历史某一时间点的状态,咱们就先按正常的下单、支付、发货、完成的流程来演示拉链表:
- start_date:表示该条记录生命周期开始时间
- end_date:表示该条记录的生命周期结束时间
- end_date = '9999-12-31 23:59:59’表示该条记录目前处于有效状态,也叫封链时间
下面是一张拉链表,存储的是订单基本信息和每条记录的生命周期。我们可以使用这种表拿到最新的当天的最新数据和之前的历史某一时间点的数据。
订单编号 | 用户名 | 状态 | start_date | end_date |
12345678 | 任霏 | 完成 | 2021-01-07 18:24:55 | 9999-12-31 23:59:59 |
25478512 | 张三 | 支付 | 2021-01-03 15:45:36 | 9999-12-31 23:59:59 |
12345678 | 任霏 | 发货 | 2021-01-04 10:32:15 | 2021-01-07 18:24:54 |
12345678 | 任霏 | 支付 | 2021-01-03 15:45:24 | 2021-01-04 10:32:14 |
25478512 | 张三 | 下单 | 2021-01-03 15:40:21 | 2021-01-03 15:45:36 |
12345678 | 任霏 | 下单 | 2021-01-03 15:40:20 | 2021-01-03 15:45:23 |
如果查询当前订单’12345678‘的状态,则 select * from order where end_date = '9999-12-31 23:59:59' and 订单编号 = '12345678',我们就能拿到状态是“完成”状态
如果查询订单’12345678‘在 2021-01-04 08:32:14 这个时间点的状态,则select * from order where start_date<='2021-01-04 08:32:14' and end_date>='2021-01-04 08:32:14' and 订单编号 = '12345678',我们就能拿到状态是“支付”状态
流水表
正如它的名字,流水记录,每次数据变更都会形成一条记录,可以用于反映实际记录的变更历史。流水表与拉链表也有些类似,不同的是拉链表可以根据拉链粒度存储数据,也就是只存储特定维度的数据变化记录;而流水表存储的是每一个修改记录。
版权声明:本文为博主「任霏」原创文章,遵循 CC BY-NC-SA 4.0 版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.renfei.net/posts/1003449
相关推荐
猜你还喜欢这些内容,不妨试试阅读一下以下内容均由网友提交发布,版权与真实性无法查证,请自行辨别。
- 前后端分离项目接口数据加密的秘钥交换逻辑(RSA、AES)
- OmniGraffle 激活/破解 密钥/密匙/Key/License
- Redis 未授权访问漏洞分析 cleanfda 脚本复现漏洞挖矿
- CleanMyMac X 破解版 [TNT] 4.6.0
- OmniPlan 激活/破解 密钥/密匙/Key/License
- 人大金仓 KingbaseES V8 R3 安装包、驱动包和 License 下载地址
- Parallels Desktop For Mac 16.0.1.48911 破解版 [TNT]
- Parallels Desktop For Mac 15.1.4.47270 破解版 [TNT]
- Sound Control 破解版 2.4.2
- 向谷歌搜索引擎主动推送网页的教程 Google Indexing API 接口实现
- 博客完全迁移上阿里云,我所使用的阿里云架构
- 微软确认Windows 10存在bug 部分电脑升级后被冻结
- 大佬们在说的AQS,到底啥是个AQS(AbstractQueuedSynchronizer)同步队列
- 比特币(BTC)钱包客户端区块链数据同步慢,区块链数据离线下载
- Java中说的CAS(compare and swap)是个啥
- 小心免费主题!那些WordPress主题后门,一招拥有管理员权限
- 强烈谴责[wamae.win]恶意反向代理我站并篡改我站网页
- 讨论下Java中的volatile和JMM(Java Memory Model)Java内存模型
- 新版个人网站 NEILREN4J 上线并开源程序源码
- 我站近期遭受到恶意不友好访问攻击公告