生而为人

程序员的自我修养

0%

MMS

[toc]

简历描述

业务数据处理管道搭建及维护

\1. 负责 Mediation / MMS 原始业务数据的解析与处理,涵盖数据清洗、结构化、标准化等流程,确保下游消费系统的数据一致性和准确性

\2. 基于 Spark实现大规模数据的 join、多维聚合、窗口函数等逻辑,支撑日报、计费、运营等核心场景

\3. 设计并维护,高效的数据处理管道,具备良好的可扩展性与容错性

\4. 通过优化处理逻辑及资源配置,使核心任务运行时长缩短 26%,资源占用降低17%

主要技术:spark、scope、c#、powershell

微软中国 STCA Bing 团队 工作经历(P7 级别精准版)

任职时间:2021.03 - 至今

团队:Bing 搜索与广告事业部 MSN 广告数据团队

职位:高级大数据开发工程师

核心职责

全面负责MSN 全球广告数据 Pipeline的架构设计、开发、迁移及全生命周期优化,支撑 MSN 广告投放、效果归因、营收核算等核心业务。主导完成从微软专有 Scope 平台到开源 Spark 生态的技术栈升级,解决原平台供应商锁定、扩展性不足、成本高昂的核心痛点,同时负责全链路性能调优、存储架构升级和工程效能体系建设。

核心成果

  1. 主导技术栈全面迁移:牵头完成从 Scope SQL 到 Spark/Spark Structured Streaming 的技术栈转型,将120 + 个核心离线和准实时广告任务(覆盖曝光、点击、转化全链路)平滑迁移至开源 Spark 生态,零业务中断,彻底摆脱专有平台依赖,年基础运维成本降低 40%。
  2. 全链路性能深度优化:通过执行计划拆解、低效算子重写、Shuffle 参数调优和资源精细化调度,将原 Scope SQL 任务平均运行时间缩短 25%;迁移后进一步通过数据倾斜治理、广播 Join 优化和预聚合下沉,使 Spark 任务性能再提升 30%,大促峰值时任务成功率从 92% 提升至 99.9%。
  3. 存储架构升级降本:引入 ZSTD 高压缩算法替代原有 Snappy 压缩,同时设计并落地按小时 + 地区的二级细粒度分区策略,解决了原全表扫描效率低、冷数据冗余的问题,整体存储成本降低 35%,单表查询响应速度提升 2 倍。
  4. 工程效能体系建设:搭建了完整的 CI/CD 自动化流水线,实现代码提交、单元测试、集成测试、灰度发布全流程自动化;同时构建了覆盖数据完整性、准确性、及时性的全链路监控体系,将任务上线周期从 3 天缩短至 4 小时,数据异常发现时间从小时级压缩至 5 分钟以内。

MSN 全球广告数据 Pipeline 技术升级与优化项目(更正)

项目周期:2021.03 - 至今

技术栈:Spark Structured Streaming、Flink、Scope SQL、HDFS、Prometheus、Grafana

项目背景:MSN 广告覆盖全球 100 + 国家和地区,日均曝光量超 500 亿次,峰值 QPS 达 200 万。原有数据处理完全依赖微软专有 Scope 平台,存在平台绑定严重、扩展性不足、运维成本高昂三大核心问题,且随着广告业务快速增长,原平台任务运行延迟高、存储成本激增、工程效能低下等问题日益突出,无法支撑广告投放、效果归因、营收核算等核心业务的快速迭代需求。

核心职责

  1. 主导整体技术架构升级,设计并落地从微软专有 Scope 平台到开源 Spark 生态的完整迁移方案,构建统一的批流一体广告数据 Pipeline
  2. 负责 MSN 广告全链路数据 Pipeline 的开发与维护,覆盖曝光、点击、转化、归因、营收核算等核心业务流程
  3. 牵头全链路性能优化,通过执行计划深度分析、低效算子重写、Shuffle 优化和资源精细化调度,全面提升任务运行效率
  4. 设计并落地存储架构升级,引入高压缩算法和细粒度分区策略,解决原存储体系成本高、查询慢的问题
  5. 搭建完整的 CI/CD 自动化流水线和全链路数据质量监控体系,实现任务的自动化部署、测试和异常告警
  6. 为 MSN 广告投放系统、效果分析平台、财务核算系统等 15 + 个核心业务系统提供稳定可靠的数据支持

核心成果

  1. 技术栈平滑迁移:完成 120 + 个核心离线和准实时广告任务的平滑迁移,彻底摆脱专有平台依赖,年基础运维成本降低50%

  2. 全链路性能提升:通过多维度优化,将原 Scope SQL 任务平均运行时间缩短25%;迁移后进一步通过数据倾斜治理、广播 Join 优化和预聚合下沉,使 Spark 任务性能再提升30%,黑五峰值任务成功率从 92% 提升至 99.9%

  3. 存储成本大幅降低:引入 ZSTD 高压缩算法替代原有 Snappy 压缩,同时设计并落地按小时 + 地区的二级细粒度分区策略,整体存储成本降低35%,单表查询响应速度提升 2 倍

  4. 工程效能显著提升:搭建全自动化 CI/CD 流水线和数据质量监控体系,数据异常发现时间从天级压缩至 30分钟以内

  5. 业务价值突出:稳定支撑 MSN 广告业务连续 3 年营收增长,为广告投放策略优化和营收增长提供了坚实的数据基础

  6. scope sql 迁移 spark 平台

项目简介:

如何确定水位线的延迟时间:

通过测试job,对于不同水位线的join结果,统计准确度,5分钟延迟可以达到99.8%

实际窗口是2h

如何解决中间未join上的数据需要继续等待的问题,如何保证处理速度。

使用状态文件,对join上的数据直接输出,对于没能join上的数据保留到state文件中,下此与新到的数据一同计算

深入挖掘

优化方案

1. 流水线处理

2. 逻辑合并