MMS

[toc]

简历描述

业务数据处理管道搭建及维护

\1. 负责 Mediation / MMS 原始业务数据的解析与处理，涵盖数据清洗、结构化、标准化等流程，确保下游消费系统的数据一致性和准确性

\2. 基于 Spark实现大规模数据的 join、多维聚合、窗口函数等逻辑，支撑日报、计费、运营等核心场景

\3. 设计并维护，高效的数据处理管道，具备良好的可扩展性与容错性

\4. 通过优化处理逻辑及资源配置，使核心任务运行时长缩短 26%，资源占用降低17%

主要技术：spark、scope、c#、powershell

微软中国 STCA Bing 团队工作经历（P7 级别精准版）

任职时间：2021.03 - 至今

团队：Bing 搜索与广告事业部 MSN 广告数据团队

职位：高级大数据开发工程师

核心职责

全面负责MSN 全球广告数据 Pipeline的架构设计、开发、迁移及全生命周期优化，支撑 MSN 广告投放、效果归因、营收核算等核心业务。主导完成从微软专有 Scope 平台到开源 Spark 生态的技术栈升级，解决原平台供应商锁定、扩展性不足、成本高昂的核心痛点，同时负责全链路性能调优、存储架构升级和工程效能体系建设。

核心成果

主导技术栈全面迁移：牵头完成从 Scope SQL 到 Spark/Spark Structured Streaming 的技术栈转型，将120 + 个核心离线和准实时广告任务（覆盖曝光、点击、转化全链路）平滑迁移至开源 Spark 生态，零业务中断，彻底摆脱专有平台依赖，年基础运维成本降低 40%。
全链路性能深度优化：通过执行计划拆解、低效算子重写、Shuffle 参数调优和资源精细化调度，将原 Scope SQL 任务平均运行时间缩短 25%；迁移后进一步通过数据倾斜治理、广播 Join 优化和预聚合下沉，使 Spark 任务性能再提升 30%，大促峰值时任务成功率从 92% 提升至 99.9%。
存储架构升级降本：引入 ZSTD 高压缩算法替代原有 Snappy 压缩，同时设计并落地按小时 + 地区的二级细粒度分区策略，解决了原全表扫描效率低、冷数据冗余的问题，整体存储成本降低 35%，单表查询响应速度提升 2 倍。
工程效能体系建设：搭建了完整的 CI/CD 自动化流水线，实现代码提交、单元测试、集成测试、灰度发布全流程自动化；同时构建了覆盖数据完整性、准确性、及时性的全链路监控体系，将任务上线周期从 3 天缩短至 4 小时，数据异常发现时间从小时级压缩至 5 分钟以内。

MSN 全球广告数据 Pipeline 技术升级与优化项目（更正）

项目周期：2021.03 - 至今

技术栈：Spark Structured Streaming、Flink、Scope SQL、HDFS、Prometheus、Grafana

项目背景：MSN 广告覆盖全球 100 + 国家和地区，日均曝光量超 500 亿次，峰值 QPS 达 200 万。原有数据处理完全依赖微软专有 Scope 平台，存在平台绑定严重、扩展性不足、运维成本高昂三大核心问题，且随着广告业务快速增长，原平台任务运行延迟高、存储成本激增、工程效能低下等问题日益突出，无法支撑广告投放、效果归因、营收核算等核心业务的快速迭代需求。

核心职责

主导整体技术架构升级，设计并落地从微软专有 Scope 平台到开源 Spark 生态的完整迁移方案，构建统一的批流一体广告数据 Pipeline
负责 MSN 广告全链路数据 Pipeline 的开发与维护，覆盖曝光、点击、转化、归因、营收核算等核心业务流程
牵头全链路性能优化，通过执行计划深度分析、低效算子重写、Shuffle 优化和资源精细化调度，全面提升任务运行效率
设计并落地存储架构升级，引入高压缩算法和细粒度分区策略，解决原存储体系成本高、查询慢的问题
搭建完整的 CI/CD 自动化流水线和全链路数据质量监控体系，实现任务的自动化部署、测试和异常告警
为 MSN 广告投放系统、效果分析平台、财务核算系统等 15 + 个核心业务系统提供稳定可靠的数据支持

核心成果

技术栈平滑迁移：完成 120 + 个核心离线和准实时广告任务的平滑迁移，彻底摆脱专有平台依赖，年基础运维成本降低50%
全链路性能提升：通过多维度优化，将原 Scope SQL 任务平均运行时间缩短25%；迁移后进一步通过数据倾斜治理、广播 Join 优化和预聚合下沉，使 Spark 任务性能再提升30%，黑五峰值任务成功率从 92% 提升至 99.9%
存储成本大幅降低：引入 ZSTD 高压缩算法替代原有 Snappy 压缩，同时设计并落地按小时 + 地区的二级细粒度分区策略，整体存储成本降低35%，单表查询响应速度提升 2 倍
工程效能显著提升：搭建全自动化 CI/CD 流水线和数据质量监控体系，数据异常发现时间从天级压缩至 30分钟以内
业务价值突出：稳定支撑 MSN 广告业务连续 3 年营收增长，为广告投放策略优化和营收增长提供了坚实的数据基础
scope sql 迁移 spark 平台

项目简介：

如何确定水位线的延迟时间：

通过测试job，对于不同水位线的join结果，统计准确度，5分钟延迟可以达到99.8%

实际窗口是2h

如何解决中间未join上的数据需要继续等待的问题，如何保证处理速度。

使用状态文件，对join上的数据直接输出，对于没能join上的数据保留到state文件中，下此与新到的数据一同计算

生而为人

简历描述

微软中国 STCA Bing 团队工作经历（P7 级别精准版）

核心职责

核心成果

MSN 全球广告数据 Pipeline 技术升级与优化项目（更正）

核心职责

核心成果

项目简介：

深入挖掘

优化方案

1. 流水线处理

2. 逻辑合并

简历描述

微软中国 STCA Bing 团队 工作经历（P7 级别精准版）

核心职责

核心成果

MSN 全球广告数据 Pipeline 技术升级与优化项目（更正）

核心职责

核心成果

项目简介：

深入挖掘

优化方案

1. 流水线处理

2. 逻辑合并

微软中国 STCA Bing 团队工作经历（P7 级别精准版）