[toc]

编译与部署

安装与部署

软硬件需求

FE（前端）和BE（后端）存储数据的区别，以及所需机器配置
FE与BE端口、网络需求
ip绑定

集群部署

手动部署
- FE部署
- BE部署
- FS_Broker部署

扩容缩容

FE扩容和缩容
- 增加FE节点
- 删除FE节点
BE扩容和缩容
- 增加BE节点
- 删除BE节点
Broker扩容缩容

常见问题

开始使用

基础使用指南

1.创建用户

Root用户登陆与密码修改
创建新用户

2.数据表的创建与数据导入

创建数据库
账户授权
建表
- 单分区
- 复合分区
导入数据
- 流式导入
- Broker导入

3.数据的查询

简单查询
Join查询
子查询

高级使用指南

1. 表结构变更

2. Rollup

3. 数据表的查询

内存限制
查询超时
Broadcast/Shuffle Join
查询重试和高可用

最佳实践

1. 建表

数据模型选择
- AGGREGATE KEY
- UNIQUE KEY
- DUPLICATE KEY
大宽表与Star Schema
分区和分桶
- Range分区(partition)
- HASH分桶(bucket)
稀疏索引和Bloom Filter
物化视图(rollup)
- Base Table中数据聚合度不高
- Base Table中的前缀索引无法命中

2. Schema Change

Sorted Schema Change
Direct Schema Change: 无需重新排序，但需要对数据做一次转换。例如修改列的类型，在稀疏索引中加一列等
Linked Schema Change: 无需转换数据，直接完成。例如加列操作

数据划分

1. 基本概念

Row & Column
Tablet & Partition

2. 数据划分

列定义
- 列定义建议
分区与分桶

Doris支持两层的数据划分。第一层是Partition，仅支持Range的划分方式。第二层是Bucket（Tablet），仅支持Hash的划分方式。也可以仅使用一层分区

- Partition
- Bucket
- 关于Partition和Bucket的数量和数据量的建议
- 多列分区
PROPERTIES
- replication_num
- storage_medium & storage_cooldown_time
ENGINE

3. 常见问题

建表操作常见问题
- 如果在较长的建表语句中出现语法错误，可能会出现语法错误提示不全的现象。这里罗列可能的语法错误供手动纠错：
- Failed to create partition [xxx] . Timeout
- 建表命令长时间不返回结果。

数据模型、ROLLUP及前缀索引

github wiki

1. 基本概念

Row
Column
- Key
- Value

2. Aggregate模型

示例1: 导入数据聚合
示例2: 保留明细数据
示例3: 导入数据与已有数据聚合

3. Uniq模型

4. Duplicate模型(冗余模型)

5. ROLLUP

基本概念
- Aggregate和Uniq模型中的ROLLUP
- - 示例1: 获得每个用户的总消费
  - 示例2: 获得不同城市，不同年龄段用户的总消费、最长和最短页面驻留时间
- Duplicate模型中的ROLLUP
前缀索引与ROLLUP
- 前缀索引

我们将一行数据的前 36 个字节作为这行数据的前缀索引。当遇到 VARCHAR 类型时，前缀索引会直接截断。

- ROLLUP调整前缀索引
ROLLUP的几点说明
- 根本作用是提高某些查询的查询效率（无论是通过聚合来减少数据量，还是修改列顺序以匹配前缀索引）。因此 ROLLUP 的含义已经超出了 “上卷” 的范围。这也是为什么我们在源代码中，将其命名为 Materized Index（物化索引）的原因。
- ROLLUP是附属于Base表的，可以看作是Base表的一种辅助数据结构。用户可以在 Base 表的基础上，创建或删除 ROLLUP，但是不能在查询中显式的指定查询某 ROLLUP。是否命中 ROLLUP 完全由 Doris 系统自动决定。
- ROLLUP 的数据是独立物理存储的。因此，创建的 ROLLUP 越多，占用的磁盘空间也就越大。同时对导入速度也会有影响（导入的ETL阶段会自动产生所有 ROLLUP 的数据），但是不会降低查询效率（只会更好）。
- ROLLUP 的数据更新与 Base 表示完全同步的。用户无需关心这个问题。
- ROLLUP 中列的聚合方式，与 Base 表完全相同。在创建 ROLLUP 无需指定，也不能修改。
- 查询能否命中 ROLLUP 的一个必要条件（非充分条件）是，查询所涉及的所有列（包括 select list 和 where 中的查询条件列等）都存在于该 ROLLUP 的列中。否则，查询只能命中 Base 表。
- 某些类型的查询（如 count(*)）在任何条件下，都无法命中 ROLLUP。具体参见接下来的聚合模型的局限性一节。
- 可以通过 EXPLAIN your_sql; 命令获得查询执行计划，在执行计划中，查看是否命中 ROLLUP。
- 可以通过 DESC tbl_name ALL; 语句显示 Base 表和所有已创建完成的 ROLLUP。
- 查询如何命中ROLLUP

6. 聚合模型的局限性

Aggregate 模型（包括 Uniq 模型）

在聚合模型中，模型对外展现的，是最终聚合后的数据。也就是说，任何还未聚合的数据（比如说两个不同导入批次的数据），必须通过某种方式，以保证对外展示的一致性。

Duplicate 模型

Duplicate 模型没有聚合模型的这个局限性。因为该模型不涉及聚合语意，在做 count(*) 查询时，任意选择一列查询，即可得到语意正确的结果。

7. 数据模型的选择建议

因为数据模型在建表时就已经确定，且无法修改。所以，选择一个合适的数据模型非常重要。

Aggregate 模型可以通过预聚合，极大地降低聚合查询时所需扫描的数据量和查询的计算量，非常适合有固定模式的报表类查询场景。但是该模型对 count(*) 查询很不友好。同时因为固定了 Value 列上的聚合方式，在进行其他类型的聚合查询时，需要考虑语意正确性。
Uniq 模型针对需要唯一主键约束的场景，可以保证主键唯一性约束。但是无法利用 ROLLUP 等预聚合带来的查询优势（因为本质是 REPLACE，没有 SUM 这种聚合方式）。
Duplicate 适合任意维度的 Ad-hoc 查询。虽然同样无法利用预聚合的特性，但是不受聚合模型的约束，可以发挥列存模型的优势（只读取相关列，而不需要读取所有 Key 列）。

Rollup与查询

在 Doris 里 Rollup 作为一份聚合物化视图，其在查询中可以起到两个作用：

索引
聚合数据（仅用于聚合模型，即aggregate key）

但是为了命中 Rollup 需要满足一定的条件，并且可以通过执行计划中 ScanNdoe 节点的 PreAggregation 的值来判断是否可以命中 Rollup，以及 Rollup 字段来判断命中的是哪一张 Rollup 表。

1. 名词解释

Base：基表
Rollup：一般指基于 Base 表创建的 Rollup 表，但在一些场景包括 Base 以及 Rollup 表。

2. 索引

3. 聚合数据

操作手册

数据导入

1. 导入总览

1.1 基本概念

Frontend（FE）：Doris 系统的元数据和调度节点。在导入流程中主要负责导入规划生成和导入任务的调度工作。
Backend（BE）：Doris 系统的计算和存储节点。在导入流程中主要负责数据的 ETL 和存储。
Broker：Broker 为一个独立的无状态进程。封装了文件系统接口，提供 Doris 读取远端存储系统中文件的能力。
导入作业（Load job）：导入作业读取用户提交的源数据，转换或清洗后，将数据导入到 Doris 系统中。导入完成后，数据即可被用户查询到。
Label：所有导入作业都有一个 Label。Label 在一个数据库内唯一，可由用户指定或系统自动生成，用于标识一个导入作业。相同的 Label 仅可用于一个成功的导入作业。
MySQL 协议/HTTP 协议：Doris 提供两种访问协议接口。 MySQL 协议和 HTTP 协议。部分导入方式使用 MySQL 协议接口提交作业，部分导入方式使用 HTTP 协议接口提交作业。