[toc]

大数据转AI面试宝典

一、转型定位与核心优势（必背）

1. 大数据转 AI 的核心竞争力（面试必说）

数据工程能力：精通数据采集、清洗、去重、归一化、分箱、特征构建（Hive/Spark/Flink），AI 项目 80% 时间在做数据，你天然占优。
分布式与大规模处理：熟悉分布式存储（HDFS）、计算（Spark/Flink）、资源调度（Yarn/K8s），能解决 AI 训练 / 推理的大算力、高并发、低延迟问题。
业务理解与数据洞察：懂数仓建模、指标体系、业务流程，能把业务问题转化为 AI 可解的建模问题（如用户画像→分类 / 聚类）。
工程化与落地思维：重视监控、告警、版本管理、灰度发布，AI 不只是调参，更是从数据到服务的全链路落地。

2. 常见转型动机（标准答案）

大数据是 AI 的基础设施，AI 是大数据的价值延伸，想从 “数据处理” 走向 “价值挖掘”，提升技术天花板。
过往大数据项目中，发现很多业务问题（如异常检测、智能推荐）需 AI 模型解决，希望补齐算法与模型能力，实现端到端解决方案。

二、高频面试题（大数据→AI 重点）

（一）大数据基础（巩固 + 关联 AI）

Spark 与 Flink 区别？AI 场景如何选？

Spark：批处理强、生态成熟、适合大规模数据预处理、特征工程、离线训练；
Flink：实时计算强、低延迟、 Exactly-Once，适合实时特征、在线推理、流式训练；
结论：AI 项目常用 “Spark 离线 + Flink 实时” 组合。

Hive 数仓与 AI 数据链路的区别？

传统数仓：结构化数据、SQL 驱动、面向报表 / 分析；
AI 链路：结构化 + 非结构化（文本 / 图像）、需Chunk、Embedding、向量索引、特征存储、面向模型训练 / 推理；
核心差异：AI 数据要 “模型可理解、可检索、可调用”，需额外做语义化与向量化。

数据倾斜如何解决？AI 特征工程中怎么处理？

解决：参数调优（如 Spark 的 spark.sql.shuffle.partitions）、加盐（salting）、拆分大表、广播小表；
AI 场景：倾斜特征会导致模型偏倚，需重采样、分箱、异常值过滤、特征归一化，避免极端值影响训练。

（二）机器学习核心（必懂，大数据背景友好）

机器学习三要素？大数据视角理解

数据：质量 > 数量，需清洗、去重、特征工程（大数据强项）；
模型：从简单（LR）到复杂（树模型→深度学习），大数据场景优先分布式模型（如 XGBoost4J、LightGBM 分布式版）；
算法：优化目标（损失函数）+ 求解器（梯度下降），大数据需并行化训练、小批量（Mini-Batch）。

过拟合 / 欠拟合原因及解决？大数据场景如何规避？

过拟合：模型复杂、数据量不足、噪声多；解决：增加数据（大数据优势）、正则化（L1/L2）、剪枝、Dropout、早停；
欠拟合：模型简单、特征不足；解决：增加特征、提升模型复杂度、减少正则化。

分类 / 回归常用算法及适用场景？（大数据选型）

分类：LR（基线、可解释）、RandomForest（抗过拟合）、XGBoost/LightGBM（工业界首选、分布式支持好）、SVM（小数据）；
回归：LR、GBRT、LightGBM；
大数据优先：树模型（XGBoost/LightGBM），支持分布式、训练快、可解释性好。

特征工程核心步骤？大数据如何高效做？

步骤：数据清洗→特征选择（过滤 / 包裹 / 嵌入）→特征变换（归一化 / 标准化 / 分箱）→特征构建（交叉特征、时间特征）；
大数据工具：Spark MLlib、Flink ML、Feast（特征存储），支持分布式特征计算与复用。

（三）深度学习与大模型（重点突击，大数据关联）

CNN/RNN/Transformer 核心区别？大数据场景应用

CNN：图像 / 空间特征、局部感知、权值共享；
RNN：序列数据（文本 / 时间序列）、时序依赖、梯度消失；
Transformer：自注意力机制、并行计算、全局依赖，大模型基础（BERT/GPT）；
大数据：Transformer 适合大规模文本 / 多模态数据，需分布式训练（如 PyTorch Distributed、TensorFlow Distributed）。

大模型（LLM）的核心技术？大数据工程师能做什么？

核心：Transformer 架构、自监督预训练、指令微调（SFT）、人类反馈强化学习（RLHF）、RAG；
大数据工程师价值：数据清洗（去重 / 过滤低质数据）、预训练数据构建、RAG 知识库搭建（向量库 + 检索）、模型部署（分布式推理、K8s）、监控与运维。

RAG 原理及解决的问题？大数据如何落地 RAG？

RAG：检索增强生成，先从知识库检索相关信息，再给 LLM 生成答案；
解决：LLM 知识过时、幻觉、无依据生成；
大数据落地：用 Spark/Flink 处理文档→Chunk 分割→Embedding（如 BGE）→向量库（FAISS/Chroma/Milvus）→检索（关键词 + 向量混合）→LLM 生成。

大模型幻觉问题？如何解决？（高频）

幻觉：生成内容看似合理但虚假 / 不准确；
解决：RAG 提供外部可信知识、强化 Prompt 约束（如 “仅根据提供资料回答，禁止编造”）、输出引用溯源、规则校验（如 SQL 语法 / JSON Schema）、Bad Case 持续优化。

（四）工程化与落地（大数据强项，必讲细节）

AI 项目全流程？大数据角色分工

流程：业务理解→数据采集→数据清洗→特征工程→模型训练→模型评估→模型部署→监控迭代；
大数据：主导数据采集、清洗、特征工程、数据存储、分布式训练 / 推理，配合算法工程师做模型优化。

模型部署方式？大数据环境如何选型？

离线部署：批量预测（Spark MLlib）、适合报表 / 分析；
在线部署：RESTful API（Flask/FastAPI）、gRPC、TensorFlow Serving、TorchServe；
大数据高并发：K8s 集群、负载均衡、批量推理、Flink 实时预测。

AI 模型监控重点？大数据如何做监控？

监控指标：数据漂移（特征分布变化）、模型漂移（预测精度下降）、延迟、吞吐量、错误率；
大数据工具：Flink/Spark 做实时指标计算、Prometheus+Grafana 可视化、告警（邮件 / 钉钉）、自动重训（触发式）。

三、转型项目实战（简历 + 面试必背，突出大数据 + AI 结合）

项目模板（直接套用）

项目名称：基于 Spark+LightGBM 的用户流失预测系统（或 “基于 RAG 的企业知识库问答系统”）

项目背景：业务需预测高流失风险用户，精准运营；传统规则准确率低，需 AI 模型提升效果。

技术栈：

大数据：Hive（数仓）、Spark（数据清洗 + 特征工程 + 分布式训练）、Flink（实时特征）、HDFS（存储）；
AI：Python、Pandas、Scikit-learn、LightGBM（分布式）、MLflow（模型管理）；
部署：Flask API、K8s、Prometheus 监控。

核心职责（大数据视角）

：

负责数据链路搭建：从业务库（MySQL）→数据仓库（Hive）→特征层（Spark），完成用户行为数据采集、清洗、去重、归一化；
设计并实现特征工程：构建用户活跃度、消费能力、互动频率等 200 + 特征，用 Spark MLlib 做特征选择与变换；
基于 Spark 分布式训练LightGBM 模型，调参（学习率、树深度、正则化），模型 AUC 达 0.89，优于规则模型；
模型部署：导出模型为 ONNX 格式，封装 Flask API，K8s 集群部署，支持每秒 1000 + 请求；
监控：用 Flink 实时监控数据漂移与模型精度，异常时自动告警并触发重训。

项目亮点（面试必说）

：

利用大数据分布式能力，处理千万级用户数据，训练时间从单机 12 小时缩短至 2 小时；
构建特征复用体系，支持多模型共享特征，提升迭代效率；
实现端到端 AI 落地，从数据到服务全链路可控，模型稳定运行 6 个月无重大故障。

四、面试应答模板（高频场景，直接背）

1. 自我介绍（1 分钟，突出大数据→AI）

“我有 X 年大数据开发经验，精通 Hadoop/Spark/Flink 生态，主导过数据仓库建设、大规模数据处理、特征工程等项目，擅长解决数据倾斜、分布式计算、高并发存储等问题。近年深耕 AI 领域，系统学习了机器学习（LR / 树模型）、深度学习（Transformer）与大模型应用（RAG），并落地了用户流失预测 / 知识库问答项目，实现从数据处理到 AI 模型落地的全链路能力。希望在贵司深耕 AI 工程化方向，用大数据能力赋能 AI 落地。”

2. 为什么从大数据转 AI？

“大数据是 AI 的基础设施，我过往工作积累了扎实的数据工程与分布式处理能力，但发现很多业务价值需 AI 模型挖掘。AI 是大数据的价值延伸，转型后能从‘数据搬运工’升级为‘价值创造者’，提升技术天花板，也契合行业智能化趋势。”

3. 你的 AI 短板是什么？如何弥补？

“算法理论深度（如模型推导）不如专业算法工程师，但我工程化与落地能力强，能快速将算法模型转化为线上服务。弥补方式：系统学习机器学习 / 深度学习理论，参与开源项目（如 PyTorch、LangChain），在项目中深耕模型调优与部署，逐步补齐算法深度。”

4. 大数据与 AI 结合的优势？

“大数据提供高质量、大规模、多样化的数据，是 AI 模型效果的基础；AI 提供算法与模型能力，挖掘数据价值。两者结合能实现‘数据驱动模型，模型反哺业务’，解决传统大数据无法处理的复杂问题（如自然语言理解、智能决策），提升业务智能化水平。”

五、避坑指南（大数据转 AI 常见误区）

只学算法，忽视工程：AI 落地 80% 是工程，大数据的分布式、数据处理、部署监控能力是核心竞争力，别丢强项；
过度追求深度学习：工业界 AI 项目 80% 用树模型（XGBoost/LightGBM），简单、高效、可解释，大数据场景优先；
忽视数据质量：AI 模型效果 = 数据质量 + 模型算法，大数据背景要强调数据清洗、去重、特征质量控制；
不会表达 AI 价值：面试时别只说技术，要讲AI 解决了什么业务问题、带来什么价值（如准确率提升、成本降低、收入增加）。

六、面试准备清单（1-2 周突击）

理论：机器学习（LR / 树模型 / 评估指标）、深度学习（CNN/RNN/Transformer）、大模型（RAG/Prompt）；
工具：Spark MLlib、Flink ML、Scikit-learn、LightGBM、LangChain、FAISS；
项目：准备 1-2 个大数据 + AI 结合项目，讲清数据处理、特征工程、模型训练、部署监控、业务价值；
手撕代码：Python 基础、Spark SQL、特征工程代码（如归一化、分箱）、简单模型训练（如 LightGBM）。

大数据转 AI 7 天突击面试计划（每日任务 + 必背题 + 实操 + 面试话术）

适配：大数据开发（Hive/Spark/Flink）转 AI 算法、AI 应用、大模型 RAG、机器学习工程岗，直接照着每天打卡，7 天可上考场。

整体安排说明

每天分 4 块：理论必背 + 代码实操 + 面试真题背诵 + 项目打磨

不用啃深奥推导，主打面试能说、项目能讲、手撕能写，发挥大数据原有优势，补齐 AI 刚需知识点。

第 1 天：打底 —— 机器学习基础 + 大数据与 AI 关联

理论必背

机器学习三要素：数据、模型、策略（损失函数 + 优化器）
训练集 / 验证集 / 测试集划分、过拟合 & 欠拟合原因 + 解决办法
常见评估指标：

分类：Accuracy、Precision、Recall、F1、AUC

回归：MAE、MSE、RMSE

实操

Python numpy/pandas 基础：数据清洗、缺失值、异常值处理
手写：归一化、标准化代码

面试必背真题

为什么从大数据转 AI？（背标准话术）
大数据工程师做 AI 的核心优势是什么？
过拟合怎么解决？结合大数据海量数据怎么规避？

项目铺垫

想好 2 个可写项目二选一：① 基于 Spark+LightGBM 用户流失 / 精准营销 ② 基于 RAG 企业知识库问答（大数据做数据预处理 + 向量库）

第 2 天：工业界核心 —— 树模型全家桶（面试最高频）

理论必背

LR 逻辑回归：原理、适用场景、可解释性
随机森林、GBDT、XGBoost、LightGBM 区别
树模型防止过拟合方式：最大深度、叶子节点数、学习率、子采样、L1/L2 正则

实操

sklearn 跑通：LR、RandomForest、LightGBM 训练 + 评估
学会看 AUC、混淆矩阵

面试必背真题

XGBoost 比 GBDT 优化了哪些地方？
LightGBM 的直方图优化、叶子生长策略？
特征共线性对模型有什么影响？怎么处理？

项目打磨

确定主推项目：优先 Spark+LightGBM 离线建模，贴合大数据背景，面试官最爱问。

第 3 天：特征工程 + Spark AI 生态（你的强项拉满）

理论必背

特征工程完整流程：清洗→衍生→变换→选择→归一化 / 分箱 / 离散化
特征选择三大类：过滤法、包裹法、嵌入法
数据漂移、概念漂移定义及业务影响

实操

Spark SQL 做用户行为特征统计
Spark MLlib 标准化、OneHot、特征向量组装

面试必背真题

大数据场景下怎么做大规模特征工程？
数据倾斜对特征和模型有什么影响？怎么处理？
什么是特征漂移？线上怎么监控？

项目打磨

梳理项目链路：MySQL→Hive 数仓→Spark 特征层→模型训练→批量预测

第 4 天：深度学习入门 + Transformer 基础（大模型打底）

理论必背

CNN、RNN、LSTM 适用场景与优缺点
Transformer 核心：自注意力机制、Encoder/Decoder
Embedding 向量含义、作用

实操

跑通简单文本 Embedding 生成示例代码

面试必背真题

为什么 Transformer 比 RNN 好？
自注意力机制简单讲下原理？
Embedding 在推荐 / 问答中怎么用？

项目打磨

若准备 RAG 项目：理清整体链路：文档→分块 Chunk→Embedding→向量库→检索→LLM 生成

第 5 天：大模型 RAG 专项（现在面试必问）

理论必背

RAG 完整流程、解决什么问题（幻觉、知识过时）
向量数据库作用：Milvus/FAISS/Chroma
文本分块策略、重排序、混合检索
LLM 幻觉产生原因 + 5 种解决办法

实操

极简版 RAG 代码：文档加载→分块→向量化→检索→问答

面试必背真题

讲讲 RAG 整体架构？
RAG 怎么优化召回准确率？
大模型幻觉怎么解决？

项目打磨

给 RAG 项目加大数据亮点：用 Flink/Spark 做文档批量清洗、去重、结构化处理

第 6 天：AI 工程化 + 模型部署 + 线上监控

理论必背

模型部署三种形态：离线批量、在线 API、流式实时
Flask/FastAPI 模型服务、TensorFlow Serving 概念
模型监控：数据漂移、模型精度、延迟、吞吐量
微服务、K8s 部署基本概念

实操

把训练好的 LightGBM 模型封装成 FastAPI 接口，本地调用通

面试必背真题

模型从训练到上线完整流程？
线上模型效果变差怎么排查？
实时 AI 预测怎么结合 Flink 做？

项目打磨

补全项目工程亮点：分布式训练、批量推理、服务部署、监控告警

第 7 天：全真模拟 + 高频题库背诵 + 自我介绍定稿

定稿背诵（一字不差背熟）

1 分钟标准版自我介绍（大数据转 AI 专属）
转行动机标准答案
两个项目完整口述版（背景→技术栈→职责→难点→亮点→业务价值）

刷高频综合题

Spark 和 Flink 在 AI 场景怎么选型？
大数据做 AI 和纯算法岗有什么区别？你的定位是什么？
模型过拟合、样本不均衡怎么处理？

模拟面试

自己对着手机口述：自我介绍 + 项目讲解 + 3 道高频题，流畅不卡顿即可。

收尾

整理一份个人面试速记小抄：公式、指标、模型区别、项目要点，面试前 10 分钟快速过一遍。

大数据转 AI 面试必背全套文稿

（含：自我介绍、转行动机、7 天每日高频题标准答案、两大项目口述完整版，直接背，面试原样复述即可）

一、1 分钟标准自我介绍（直接背）

面试官您好，我有多年大数据开发经验，熟练掌握 Hive、Spark、Flink 整个大数据生态，擅长数据仓库建模、离线和实时数据链路建设、大规模数据清洗与分布式特征工程，也经常处理数据倾斜、海量数据调度和集群运维问题。

后期我主动往 AI 方向转型，系统学习了机器学习、树模型、深度学习 Transformer 以及大模型 RAG 应用，也基于 Spark、Python 落地过用户画像建模、流失预测、企业知识库 RAG 问答项目。

我的优势是大数据工程底子扎实、懂业务、懂全链路数据治理，能把 AI 从模型训练做到工程化落地、上线监控全流程。目前定位是 AI 工程 + 算法应用方向，希望在贵司深耕大模型应用和机器学习落地岗位。

二、转行动机标准回答（必背）

首先，大数据本身就是 AI 的基础设施，我之前一直做数据仓库和数据处理，发现单纯做数仓报表只能做事后分析，很多业务价值没法深度挖掘。

其次，AI 是大数据价值的延伸，有了模型和算法，才能做预测、智能推荐、智能问答、异常检测这类前置化、智能化的能力。

我不想一直停留在数据搬运和清洗层面，希望利用自己分布式计算、特征工程、数据链路搭建的强项，往 AI 工程化、大模型应用方向发展，从数据处理升级到数据价值挖掘，提升技术天花板，也贴合行业智能化的发展趋势。

三、通用高频基础题标准答案

1. 你大数据转 AI 的核心优势是什么？

数据能力强：AI 项目 80% 工作是数据，我擅长采集、清洗、去重、归一化、特征衍生，能搞定千万级、亿级海量数据处理。
分布式功底扎实：熟悉 Spark/Flink/Yarn/K8s，能支撑模型离线分布式训练、实时特征、在线高并发推理。
懂业务懂数仓：能把业务问题翻译成建模问题，会做指标体系、用户分层、画像标签，非常适合业务建模、推荐、风控类 AI 项目。
工程落地思维强：不只调参，还能做模型部署、版本管理、灰度、监控告警，保证模型稳定上线迭代。

2. 你的短板是什么？怎么弥补？

短板：深度学习底层公式推导、纯科研论文方向不如科班算法同学。

弥补：

重点深耕工业界能用的模型：LR、树模型、Transformer、RAG，不钻无用推导；
全程落地实战项目，用代码和工程经验补齐理论；
持续系统补机器学习、深度学习基础，跟着项目边做边学，快速补齐算法应用能力。

3. 过拟合、欠拟合原因 + 解决

欠拟合

原因：模型太简单、特征太少、正则太强。

解决：增加特征、提升模型复杂度、减小正则、减少剪枝。

过拟合

原因：模型复杂、样本太少、噪声多、特征冗余。

解决：

增加训练数据、划分训练 / 验证 / 测试集；

L1/L2 正则、Dropout、树模型限制深度 / 叶子节点；

早停、特征筛选、剔除异常噪声样本。

4. 分类、回归常用评估指标

分类：准确率 Accuracy、精确率 Precision、召回率 Recall、F1 值、AUC。

回归：MAE 平均绝对误差、MSE 均方误差、RMSE 均方根误差。

5. 什么是数据漂移、概念漂移

数据漂移：输入特征的分布随时间变了，比如用户行为、年龄、消费分布变了，导致模型输入变了。

概念漂移：输入和标签的关联关系变了，原来的规律不再适用。

危害：线上模型效果逐步变差、准确率下降。

处理：实时监控特征分布、定期重训、异常告警、分时段建模。

四、树模型高频必背题（面试最高频）

1. GBDT、XGBoost、LightGBM 区别

GBDT：串行迭代，每棵树拟合残差，只用一阶导数，普通精度。
XGBoost：用到一二阶导数、加入 L1/L2 正则、支持并行建树、预排序、缺失值自动处理，泛化更好。
LightGBM：直方图算法减少计算量、按叶子生长（Leaf-wise）速度更快、内存占用更低，工业界首选，适合大数据分布式训练。

2. 为什么工业界最爱用 LightGBM？

训练快、省内存、精度高、自带正则防过拟合、支持类别特征、原生支持分布式，适合千万级样本、业务风控、流失预测、推荐排序等场景。

3. 特征共线性有什么影响？怎么处理？

影响：模型可解释性变差、权重不稳定、树模型分裂受干扰、LR 系数失真。

处理：相关性分析、方差膨胀因子 VIF、剔除冗余特征、降维 PCA、特征合并。

五、Spark/Flink 与 AI 结合必背题

1. Spark 和 Flink 在 AI 场景怎么选型？

Spark：适合离线大批量数据处理、特征工程、离线模型训练、批量离线预测，吞吐大、生态成熟。
Flink

：适合实时特征计算、流式数据预处理、在线实时推理、流式增量训练，低延迟、 Exactly-Once。

工业界标配：

Spark 做离线 + Flink 做实时

。

2. 大数据怎么做大规模特征工程？

用 Hive 数仓分层，原始层→明细层→特征层；
Spark SQL 做统计特征、时间窗口特征、交叉特征；
Spark MLlib 做归一化、标准化、OneHot、特征组装、特征筛选；
统一特征口径、特征复用、特征存储，供多个模型共用。

3. 数据倾斜对 AI 建模有什么影响？怎么解决？

影响：部分特征分布极端、样本不均衡、模型偏向大类、精度下降、泛化差。

解决：

加盐打散、大表拆分、广播小表、局部聚合；

建模层面：重采样、欠采样、过采样、分箱平滑、剔除极端异常值。

六、大模型 RAG 必背面试题

1. 讲讲 RAG 整体流程

文档数据→清洗预处理→文本分块 Chunk→生成 Embedding 向量→存入向量数据库→用户提问→问题向量化→向量库相似度检索→把检索到的上下文喂给大模型→大模型依据参考资料生成答案。

2. RAG 解决什么问题？

解决大模型知识过时、幻觉编造、没有私有领域知识的问题，让回答有依据、可溯源、适配企业内部知识库。

3. 怎么优化 RAG 召回效果？

合理分块大小、重叠分块、关键词 + 向量混合检索、重排序 Rerank、过滤低质量文档、元数据过滤、Prompt 约束。

4. 大模型幻觉怎么解决？

用 RAG 提供私有可信知识库；
Prompt 强制约束：只根据给定材料回答，禁止编造；
输出引用溯源、标注来源文档；
规则校验、JSON 格式约束、事后 Bad Case 迭代优化。

七、AI 工程化 & 部署必背

1. AI 项目完整流程

业务理解→数据采集→数据清洗预处理→特征工程→样本划分→模型训练调参→模型评估→模型上线部署→线上监控（数据漂移 + 精度 + 性能）→迭代重训。

2. 模型有哪些部署方式？

离线批量部署：Spark 批量打分，用于报表、标签更新；
在线 API 部署：FastAPI/Flask、TorchServe、TensorFlow Serving，低延迟接口调用；
流式实时部署：Flink 对接消息队列，实时特征 + 实时预测。

3. 线上模型效果变差怎么排查？

先查数据：特征分布是否漂移、有没有缺失值、数据源变更；

再查模型：流量结构变化、样本分布偏移；

最后查工程：接口延迟、日志异常、版本上线变更；

处理：补数据、重新特征工程、重新训练、灰度回滚。

八、两大项目标准口述稿（面试直接照着说）

项目一：基于 Spark+LightGBM 用户流失预测系统

项目背景

业务侧需要提前识别高流失用户，做精细化运营挽留，传统规则筛选准确率很低，需要用机器学习模型做预测打分。

技术栈

大数据：MySQL、Hive、Spark、HDFS、Yarn

AI：Python、Pandas、Sklearn、LightGBM、MLflow

部署：FastAPI、K8s、Prometheus 监控

负责工作

搭建数据链路：把业务 MySQL 数据同步到 Hive 数仓，分层建模，做用户行为、消费、活跃度明细宽表。
大规模特征工程：用 Spark 完成千万级用户数据清洗、去重、异常值过滤，衍生时间特征、统计特征、行为交叉特征，共构造 200 + 维度特征。
特征处理：做归一化、分箱、特征筛选，剔除高相关冗余特征，避免共线性。
模型训练：基于 LightGBM 做分布式训练，调优学习率、树深度、正则系数，划分训练验证测试集，模型 AUC 达到 0.89，远超传统规则。
工程化部署：模型导出封装 FastAPI 接口，K8s 容器化部署，支持高并发请求；同时用 Flink 实时监控特征分布和模型精度，出现漂移自动告警，定期触发重训。

项目亮点

利用 Spark 分布式能力，千万级样本训练从单机十几个小时压缩到 2 小时；
建立统一特征池，支持画像、流失、推荐多业务复用；
实现从数仓、特征、建模、部署、监控全链路落地，上线后有效降低用户流失率。

项目二：基于 RAG 的企业内部知识库问答系统

项目背景

企业内部有大量制度文档、技术手册、流程规范，员工查找资料效率低，需要搭建智能问答机器人，基于内部私有文档精准答疑。

技术栈

大数据：Spark/Flink、文档批量清洗去重

AI：LangChain、BGE Embedding、Milvus 向量库、大模型 API、RAG 架构

负责工作

数据预处理：用 Spark 批量解析 PDF、Word 文档，做清洗、去重、过滤低质量无效内容，统一格式。
文本分块：设计合理 Chunk 大小，采用重叠分块策略，保证上下文完整。
向量构建与入库：调用 Embedding 模型把文本块转为向量，存入 Milvus 向量数据库，建立索引优化检索速度。
RAG 流程开发：实现用户问题向量化、相似度检索、上下文拼接、Prompt 工程，约束大模型只依据检索资料回答。
优化体验：加入关键词 + 向量混合检索、重排序机制，提升召回准确率；限制禁止编造，降低幻觉。

项目亮点

借助大数据批量处理能力，一次性处理上万份内部文档，高效构建知识库；
落地企业私有 RAG，不泄露内部数据，回答精准可溯源；
不用微调大模型，低成本快速落地智能问答，大幅提升内部资料查阅效率。

大数据转 AI・7 天每日背诵打卡表

（每天固定：晨读背诵 + 午间实操 + 晚间复盘，全部内容都是上面给你的面试文稿，照着背就行）

通用每日固定任务

每天开场必背：1 分钟自我介绍、转行动机（天天背，背到脱口而出）
每天结束必复盘：当天背的题，自己口头复述 1 遍，不看稿
两个项目轮流口述，每天至少讲完1 个项目完整版

第 1 天背诵清单

必背文稿

1 分钟自我介绍（熟练脱稿）
转行动机标准回答
高频基础题：
- 大数据转 AI 核心优势
- 自身短板及弥补方案
- 过拟合、欠拟合原因 + 解决
- 分类 / 回归评估指标
- 数据漂移、概念漂移定义 + 危害 + 处理

实操任务

Python pandas 缺失值、异常值、归一化代码手写一遍
口头完整口述：项目一流失预测 一遍

第 2 天背诵清单

必背文稿

复习：自我介绍、转行动机
树模型专项全背：
- GBDT / XGBoost / LightGBM 三者区别
- 工业界为什么首选 LightGBM
- 特征共线性影响及解决办法

实操任务

sklearn 跑通 LR、LightGBM 训练 + 评估
口头完整口述：项目二 RAG 知识库 一遍

第 3 天背诵清单

必背文稿

复习：前 2 天所有错题 + 基础概念
Spark/Flink+AI 必背全背：
- Spark、Flink 在 AI 场景如何选型
- 大数据怎么做大规模特征工程
- 数据倾斜对 AI 建模的影响及解决方案
- AI 项目完整全流程

实操任务

手写 Spark SQL 做用户特征统计代码
口述项目一，掐时间 1 分钟精简版

第 4 天背诵清单

必背文稿

复习：树模型、大数据 AI 结合题
深度学习基础必背：
- CNN/RNN/LSTM 适用场景
- Transformer 自注意力核心原理
- Embedding 作用和业务用法

实操任务

跑通简单文本 Embedding 生成代码
口述项目二，掐时间 1 分钟精简版

第 5 天背诵清单

必背文稿

大模型 RAG 全套背熟：
- RAG 完整流程
- RAG 解决什么问题
- 如何优化 RAG 召回效果
- 大模型幻觉原因 + 4 种解决办法

实操任务

跑通极简版 RAGdemo：分块→向量化→检索→问答
随机抽 5 道前面面试题，口头作答

第 6 天背诵清单

必背文稿

AI 工程化 & 部署全背：
- 模型三种部署方式（离线 / 在线 / 流式）
- 线上模型效果变差排查思路
- 模型监控核心指标：数据漂移、模型漂移、延迟、吞吐量

实操任务

把 LightGBM 模型封装成 FastAPI 接口
两个项目完整从头口述一遍，不看稿

第 7 天模拟冲刺 & 定稿

必背 & 复盘

从头到尾过一遍所有面试题，只看标题，自己口述答案
自我介绍、转行动机、两个项目，全部脱稿流利复述
整理个人速记小抄：只记关键词，面试前快速扫一眼

模拟面试流程（必做）

自己模拟面试官，按顺序自问自答：

自我介绍
为什么从大数据转 AI？
你的优势和短板？
讲一个你做的 AI 项目
过拟合怎么处理？
Spark 和 Flink 在 AI 里怎么用？
讲讲 RAG 原理和怎么解决幻觉？
模型上线后效果下滑怎么排查？

大数据转AI 面试一页纸小抄（进场前速记）

核心原则：突出大数据优势（分布式、特征、工程），弱化纯算法推导，聚焦落地

一、自我介绍&转行动机（关键词）

自我介绍：大数据经验（Hive/Spark/Flink）→ 转型AI（ML/RAG）→ 落地项目（流失预测/RAG）→ 优势（工程化+全链路落地）

转行动机：大数据是AI基础→ 想从数据处理→价值挖掘→ 贴合行业趋势，提升天花板

二、核心优势&短板

优势：1. 数据处理（清洗/特征/海量数据）2. 分布式（Spark/Flink/分布式训练）3. 业务+数仓 4. 工程落地（部署/监控）

短板：算法推导弱→ 弥补：深耕工业界模型+实战项目+系统补基础

三、机器学习基础（必记）

过拟合：模型复杂/样本少→ 增数据、正则、Dropout、早停、剪枝

欠拟合：模型简单/特征少→ 增特征、提复杂度、减正则

评估指标：分类（AUC/Precision/Recall/F1）；回归（MAE/MSE/RMSE）

数据漂移：特征分布变；概念漂移：特征-标签关联变→ 监控、重训、告警

四、树模型（高频）

GBDT：串行、一阶导；XGBoost：一二阶导、正则、并行；LightGBM：直方图、Leaf-wise、快、省内存

LightGBM优势：工业界首选，分布式、快、防过拟合、支持类别特征

特征共线性：影响可解释性→ 相关性分析、VIF、剔除冗余、PCA

五、Spark/Flink+AI

选型：Spark（离线特征/训练/批量预测）；Flink（实时特征/推理/流式训练）

大规模特征工程：Hive分层→Spark SQL衍生→MLlib处理→特征复用

数据倾斜：加盐、拆分、广播→ 建模：重采样、分箱、剔除异常

六、大模型RAG（必问）

流程：文档→清洗→分块→Embedding→向量库→检索→LLM生成

解决问题：幻觉、知识过时、私有知识缺失

优化召回：合理分块、混合检索、重排序、Prompt约束

幻觉解决：RAG、Prompt约束、溯源、规则校验、Bad Case迭代

七、工程化&部署

部署方式：离线（Spark批量）、在线（FastAPI/TensorFlow Serving）、流式（Flink）

效果下滑排查：数据→模型→工程→ 处理：补数据、重训、回滚

监控指标：数据漂移、模型漂移、延迟、吞吐量、错误率

八、项目核心亮点（关键词）

项目一（流失预测）：Spark分布式→千万级数据→200+特征→LightGBM（AUC0.89）→全链路部署

项目二（RAG）：Spark批量清洗→分块+Embedding→Milvus→混合检索→低幻觉、可溯源

大数据转AI面试宝典

一、转型定位与核心优势（必背）

1. 大数据转 AI 的核心竞争力（面试必说）

2. 常见转型动机（标准答案）

二、高频面试题（大数据→AI 重点）

（一）大数据基础（巩固 + 关联 AI）

（二）机器学习核心（必懂，大数据背景友好）

（三）深度学习与大模型（重点突击，大数据关联）

（四）工程化与落地（大数据强项，必讲细节）

三、转型项目实战（简历 + 面试必背，突出大数据 + AI 结合）

项目模板（直接套用）

四、面试应答模板（高频场景，直接背）

1. 自我介绍（1 分钟，突出大数据→AI）

2. 为什么从大数据转 AI？

3. 你的 AI 短板是什么？如何弥补？

4. 大数据与 AI 结合的优势？

五、避坑指南（大数据转 AI 常见误区）

六、面试准备清单（1-2 周突击）

大数据转 AI 7 天突击面试计划（每日任务 + 必背题 + 实操 + 面试话术）

整体安排说明

第 1 天：打底 —— 机器学习基础 + 大数据与 AI 关联

第 2 天：工业界核心 —— 树模型全家桶（面试最高频）

第 3 天：特征工程 + Spark AI 生态（你的强项拉满）

第 4 天：深度学习入门 + Transformer 基础（大模型打底）

第 5 天：大模型 RAG 专项（现在面试必问）

第 6 天：AI 工程化 + 模型部署 + 线上监控

第 7 天：全真模拟 + 高频题库背诵 + 自我介绍定稿

大数据转 AI 面试必背全套文稿

一、1 分钟标准自我介绍（直接背）

二、转行动机 标准回答（必背）

三、通用高频基础题 标准答案

1. 你大数据转 AI 的核心优势是什么？

2. 你的短板是什么？怎么弥补？

3. 过拟合、欠拟合 原因 + 解决

4. 分类、回归常用评估指标

5. 什么是数据漂移、概念漂移

四、树模型高频必背题（面试最高频）

1. GBDT、XGBoost、LightGBM 区别

2. 为什么工业界最爱用 LightGBM？

3. 特征共线性有什么影响？怎么处理？

五、Spark/Flink 与 AI 结合 必背题

1. Spark 和 Flink 在 AI 场景怎么选型？

2. 大数据怎么做大规模特征工程？

3. 数据倾斜对 AI 建模有什么影响？怎么解决？

六、大模型 RAG 必背面试题

1. 讲讲 RAG 整体流程

2. RAG 解决什么问题？

3. 怎么优化 RAG 召回效果？

4. 大模型幻觉怎么解决？

七、AI 工程化 & 部署 必背

1. AI 项目完整流程

2. 模型有哪些部署方式？

3. 线上模型效果变差怎么排查？

八、两大项目 标准口述稿（面试直接照着说）

项目一：基于 Spark+LightGBM 用户流失预测系统

项目二：基于 RAG 的企业内部知识库问答系统

大数据转 AI・7 天每日背诵打卡表

通用每日固定任务

第 1 天 背诵清单

必背文稿

实操任务

第 2 天 背诵清单

必背文稿

实操任务

第 3 天 背诵清单

必背文稿

实操任务

第 4 天 背诵清单

必背文稿

实操任务

第 5 天 背诵清单

必背文稿

实操任务

第 6 天 背诵清单

必背文稿

实操任务

第 7 天 模拟冲刺 & 定稿

必背 & 复盘

模拟面试流程（必做）

大数据转AI 面试一页纸小抄（进场前速记）

二、转行动机标准回答（必背）

三、通用高频基础题标准答案

3. 过拟合、欠拟合原因 + 解决

五、Spark/Flink 与 AI 结合必背题

七、AI 工程化 & 部署必背

八、两大项目标准口述稿（面试直接照着说）

第 1 天背诵清单

第 2 天背诵清单

第 3 天背诵清单

第 4 天背诵清单

第 5 天背诵清单

第 6 天背诵清单

第 7 天模拟冲刺 & 定稿