subtitle
20200716 数仓建模中的各种表类型 20200716 数仓建模中的各种表类型
全量表每天的所有的最新状态的数据。 增量表新增数据,增量数据是上次导出之后的新数据。 分区表分区存储数据 流水表对于表的每一个修改都会记录,可以用于反映实际记录的变更 区别于拉链表: 拉链表通常是对账户信息的历史变动进行处理保留的结果,流
2020-07-16
20200710 大数据文件格式揭秘 20200710 大数据文件格式揭秘
大数据文件格式揭秘textfile文件存储就是正常的文本格式,将表中的数据在hdfs上 以文本的格式存储,下载后可以直接查看,也可以使用cat命令查看。优点弊端: 行存储使用textfile存储文件默认每一行就是一条记录, 可以使用任意
2020-07-10
20200705 统计连续登陆n天的用户 20200705 统计连续登陆n天的用户
统计连续登陆n天的用户具体思路: 1.因为每天用户登录次数可能不止一次,所以需要先将用户每天的登录日期去重。 2.再用row_number() over(partition by _ order by _)函数将用户id分组,按照登陆时间进
2020-07-05
20200701 如何设计一个元数据管理系统 20200701 如何设计一个元数据管理系统
如何设计一个元数据管理系统利用周末的时间学习了关于大数据工程师职业发展规划的一些课程,其中有个很好的问题分享给大家,如果让你从0到1设计一个元数据管理系统你如何设计?需要具备哪些必要的技能?就这两个问题分享一下关于我的思考。首先一个元数据管
2020-07-01
20200628 快速排序算法 20200628 快速排序算法
快速排序算法1234567891011121314151617181920212223242526272829303132def quick_sort(collection): """Pure imple
2020-06-28
20200627  Spark 倒排索引的实现 20200627 Spark 倒排索引的实现
Spark 倒排索引的实现啥是倒排索引(也有叫反向索引)inverted index倒排索引(inverted index)源于实际应用中需要根据属性的值来查找记录。在索引表中,每一项均包含一个属性值和一个具有该属性值的各记录的地址。由于记
2020-06-27
20200624 请简述ZooKeeper的选举机制 20200624 请简述ZooKeeper的选举机制
请简述ZooKeeper的选举机制一致性算法演示理解zookeeper http://thesecretlivesofdata.com/raft/
2020-06-24
20200623 一个有意思的数据分析问题 20200623 一个有意思的数据分析问题
某公司楼下有一便利店,35平米,收银员6位,每天提供早餐、中餐、晚餐。如果你来做估算,计算每天的营业额是多少? 我们假定这个便利店是盈利的 也就是营业额 >= 成本 我们假设北京的城市生活成本指数为1,最热门商圈租金为beijing_
2020-06-23
20200622 说说 flink Watermark 原理 20200622 说说 flink Watermark 原理
说说 flink Watermark 原理(☆☆☆)啥叫个水位线 Watermark Watermark 是一种告诉 Flink 一个消息延迟多少的方式。它定义了什么时候不再等待更早的数据。 可以把 Watermarks 理解为一个水位线,
20200621 数据平台建设方向思考 20200621 数据平台建设方向思考
数据平台建设方向思考(☆☆☆)
7 / 12