生而为人

程序员的自我修养

0%

[toc]

简历描述

业务数据处理管道搭建及维护

\1. 负责 Mediation / MMS 原始业务数据的解析与处理,涵盖数据清洗、结构化、标准化等流程,确保下游消费系统的数据一致性和准确性

\2. 基于 Spark实现大规模数据的 join、多维聚合、窗口函数等逻辑,支撑日报、计费、运营等核心场景

\3. 设计并维护,高效的数据处理管道,具备良好的可扩展性与容错性

\4. 通过优化处理逻辑及资源配置,使核心任务运行时长缩短 26%,资源占用降低17%

主要技术:spark、scope、c#、powershell

项目简介:

如何确定水位线的延迟时间:

通过测试job,对于不同水位线的join结果,统计准确度,5分钟延迟可以达到99.8%

实际窗口是2h

如何解决中间未join上的数据需要继续等待的问题,如何保证处理速度。

使用状态文件,对join上的数据直接输出,对于没能join上的数据保留到state文件中,下此与新到的数据一同计算

深入挖掘

优化方案

1. 流水线处理

2. 逻辑合并