[toc]
简历描述
业务数据处理管道搭建及维护
\1. 负责 Mediation / MMS 原始业务数据的解析与处理,涵盖数据清洗、结构化、标准化等流程,确保下游消费系统的数据一致性和准确性
\2. 基于 Spark实现大规模数据的 join、多维聚合、窗口函数等逻辑,支撑日报、计费、运营等核心场景
\3. 设计并维护,高效的数据处理管道,具备良好的可扩展性与容错性
\4. 通过优化处理逻辑及资源配置,使核心任务运行时长缩短 26%,资源占用降低17%
主要技术:spark、scope、c#、powershell
项目简介:
如何确定水位线的延迟时间:
通过测试job,对于不同水位线的join结果,统计准确度,5分钟延迟可以达到99.8%
实际窗口是2h
如何解决中间未join上的数据需要继续等待的问题,如何保证处理速度。
使用状态文件,对join上的数据直接输出,对于没能join上的数据保留到state文件中,下此与新到的数据一同计算