事实表技术
学习记录自《Hadoop构建数据仓库实践》
介绍五种基本事实表扩展技术
- 1、周期快照
- 2、累积快照
- 3、无事实的事实表
- 4、迟到的事实
- 5、累积度量
事实表度量介绍
事实表的数字度量值可以划分为 可加、半可加、不可加三类。
- 1、可加性度量可以按照与事实表关联的任意维度进行汇总,也就是说任何维度汇总得到的度量和是相同的。
- 2、半可加度量可以对某些维度汇总,单不能对所有维度汇总。余额是常见的半可加度量,除了时间维度外,他们可以跨越所有维度进行加法操作。
- 3、不可加度量,比如比例,对不可加度量,较好的处理方法是尽可能存储成不可加度量的可加分量,如构成比例的分子和分母。
注意:事实表中可以存在空度量值。
所有聚合函数,如sum、count、min、max、avg等均可针对控制度量计算,
其中sum、count(字段名)、min、max、avg会忽略空值,
而count(1)或count(*)在计数时会将空值包含在内。
1 | select |
| c0 | c1 | c2 | c3 |
|---|---|---|---|
| 3035 | 4769 | 4769 | 4769 |
事实表三种类型
1、事务事实表
以每个事务或事件为单位。例如订单表,子订单表,分期表,报课表,课次表。
2、周期快照事实表
这种事实表里并不保存全部数据,只保存固定时间间隔的数据。财务BI的表,财务往来表。
3、累计快照事实表
累计快照用于跟踪事实表的变化。考勤日志表、退班日志表,有状态的变更。