生而为人

程序员的自我修养

0%

大数据之路

数据技术篇

第2章 日志采集

2.0 要点

  1. 如何埋点数据,已保证能统计所需的业务数据,并适应不断增加的需求
  2. 如何过滤数据,清除掉攻击、爬虫等影响正常业务统计的数据
  3. 数据完善,根据某些手段对缺失信息进行补充。比如用登陆后的用户名,回填之前未登录时的用户名字段。但这样就不能区分是不是登陆操作了,如需要,可以增加字段标示。

第3章 数据同步

第4章 离线数据开发

第5章 实时技术

5.2.2 数据处理

1. 去重指标
2. 数据倾斜
3. 事务处理

第6章 数据服务

第7章 数据挖掘

数据模型篇

第8章 大数据领域建模综述

8.4 典型的数据仓库建模方法论

8.4.1 ER模型

建模过程分为三个阶段

  • 高层模型
  • 中层模型
  • 物理模型(底层模型)

8.4.2 维度模型

8.4.3 Data Vault模型

8.4.4 Anchor模型

第9章 阿里巴巴数据整合及管理体系

9.3 模型设计

9.3.2 模型层次

操作数据层(ODS)
公共维度模型层(CDM)
应用数据层(ADS)

9.3.3 基本原则