subtitle
07
30
20200730 布隆过滤器是啥 20200730 布隆过滤器是啥
布隆过滤器比如HBase里面的应用,构建scannner时,判断scanner的是否包含所需要的数据列或者列族,来判断rowkey是否在一个region里?用到了布隆过滤器。 说人话的解释如下 https://developer.aliyu
2020-07-30
28
20200728 spark-sql的执行过程 20200728 spark-sql的执行过程
spark执行SQL的过程总体流程parser;基于antlr框架对 sql解析,生成抽象语法树变量替换,通过正则表达式找出符合规则的字符串,替换成系统缓存环境的变量SQLConf中的spark.sql.variable.substitut
2020-07-28
24
20200724 用户画像基础 20200724 用户画像基础
何为用户画像用户画像,即用户信息标签化,户画像建模其实就是对用户“打标签”。通过收集与分析消费者社会属性、生活习惯、消费行为等主要信息的数据之后,完美地抽象出一个用户的商业全貌作是企业应用大数据技术的基本方式。 用户信息标签分类按照标签的变
2020-07-24
21
20200721 Linux kill -n n到底是啥 20200721 Linux kill -n n到底是啥
Linux kill -n这里的-n 其实就是操作系统信号量的编号,下边来举两个具体的常用🌰 kill -15 pid系统会发送一个SIGTERM的信号给对应的程序。当程序接收到该signal后,将会发生以下的事情 程序立刻停止 当程序
2020-07-21
20
20200720 元数据的理解 20200720 元数据的理解
元数据元数据元数据,简单定义就是描述数据的数据。在企业中,只要有数据存在的地方,就有其对应元数据。只有完整、准确的元数据存在,才能更好地理解数据,充分挖掘数据的价值。本文针对数据分析类场景,描述其包含元数据,方便读者更好地理解它。 技术元数
2020-07-20
17
20200717 数仓建模 20200717 数仓建模
​基础架构 https://cloud.tencent.com/developer/article/1510576 数据模型 https://cloud.tencent.com/developer/article/1514014 ETL
2020-07-17
16
20200716 数仓建模中的各种表类型 20200716 数仓建模中的各种表类型
全量表每天的所有的最新状态的数据。 增量表新增数据,增量数据是上次导出之后的新数据。 分区表分区存储数据 流水表对于表的每一个修改都会记录,可以用于反映实际记录的变更 区别于拉链表: 拉链表通常是对账户信息的历史变动进行处理保留的结果,流
2020-07-16
10
20200710 大数据文件格式揭秘 20200710 大数据文件格式揭秘
大数据文件格式揭秘textfile文件存储就是正常的文本格式,将表中的数据在hdfs上 以文本的格式存储,下载后可以直接查看,也可以使用cat命令查看。优点弊端: 行存储使用textfile存储文件默认每一行就是一条记录, 可以使用任意
2020-07-10
05
20200705 统计连续登陆n天的用户 20200705 统计连续登陆n天的用户
统计连续登陆n天的用户具体思路: 1.因为每天用户登录次数可能不止一次,所以需要先将用户每天的登录日期去重。 2.再用row_number() over(partition by _ order by _)函数将用户id分组,按照登陆时间进
2020-07-05
01
20200701 如何设计一个元数据管理系统 20200701 如何设计一个元数据管理系统
如何设计一个元数据管理系统利用周末的时间学习了关于大数据工程师职业发展规划的一些课程,其中有个很好的问题分享给大家,如果让你从0到1设计一个元数据管理系统你如何设计?需要具备哪些必要的技能?就这两个问题分享一下关于我的思考。首先一个元数据管
2020-07-01