Doris 集群监控
在 Manager 中集成了 Prometheus、Grafana 与 AlertManager,可以在 Manager 中查看与管理集群的监控。
查看集群监控
Doris Manager 提供了丰富的预制监控指标,帮助您实时了解集群的运行状况。
监控指标说明如下:
分类 | 指标名称 | 指标描述 |
---|---|---|
Cluster Overview | FE Node | 集群 FE 总节点数 |
FE Not Alive | 集群掉线的 FE 节点数 | |
Used Capacity | 集群中 BE 的已使用空间 | |
BE Node | 集群 BE 总节点数 | |
BE Not Alive | 集群掉线的 BE 节点数 | |
Total Capacity | 集群中 BE 可用存储空间 | |
FE JVM Heap Use Rate | 集群中 FE 的 jvm heap 使用率 | |
BE Compaction Score | 每个 BE 的 compaction score | |
Load Rows Rate | 单位时间内的数据导入情况 | |
QPS | 不同 FE 的 qps 情况 | |
99th Latency | 不同 FE 的 99 分位查询延时 | |
Host Monitor | CPU Used Rate | 节点的 cpu 使用率 |
Mem Usage | 节点的内存使用大小 | |
Mem Used Rate | 节点的内存使用率 | |
I/O Util | 单位时间内的磁盘 io util 情况 | |
DIsk Used Rate | 磁盘空间已用百分比 | |
Disk Write Throughput | 磁盘写能力的吞吐情况 | |
Disk Read Throughput | 磁盘读能力的吞吐情况 | |
Network Outbound Traffic | 网关的 Outbound 流量 | |
Network Inbound Traffic | 网关的 inbound 流量 | |
Query Statistic | RPS | 单位时间内的不同 FE 的请求 |
QPS | 不同 FE 的 qps | |
99th Latency | 99 分位的查询延时 | |
Query Percentile | 查询延时(不同分位) | |
Query Error [1m] | 1 min 内的查询失败率 | |
Connections | 每个 FE 的连接数 | |
Jobs | Broker Load Job | Broker load 任务状态分布 |
Insert Load Job | Insert 任务状态分布 | |
Routine Load Job | Routine load 任务状态分布 | |
Spark Load Job | Spark load 任务状态分布 | |
Broker Load Tendency | Broker load 任务情况 | |
Insert Load Tendency | Insert 任务情况 | |
Routine Load Tendency | Routine load 任务情况 | |
Spark Load Tendency | Spark load 任务情况 | |
SC Job | 正在运行的 schema change 任务数 | |
Report Queue Size | master 节点的 Report Queue Size | |
Rollup Job | 正在运行的 rollup 任务数 | |
Transactions | Txn Begin/Success on FE | FE 上发起的 txn 和成功的 txn 总数 |
Txn Failed/Reject on FE | 单位时间内,BE 的 txn 的 failed 率和 reject 率 | |
Publish Task on BE | BE 上 publish task 得总数 | |
Txn Status on FE | 不同状态的 txn 的数量 | |
Txn Load Bytes/Rows rate | 单位时间内导入的数据的行数和大小 | |
FE | Max Replayed Journal ID | FE 的 Journal ID |
Edit Log Size | FE 的 edit log 大小 | |
Image Write | FE 的 image write 次数 | |
Image Push | FE 的 image push 次数 | |
Image Counter | FE 的 image write 和 push 的次数 | |
Image Clean | Fe image 清理成功和失败的情况 | |
Edit log Clean | Fe edit log 清理成功和失败的情况 | |
BDBJE Write | BDBJE 的 99 分位写入延时 | |
BDBJE Read | 单位时间内 BDBJE 的读 | |
JVM Heap | Fe jvm heap 使用情况 | |
Scheduling Tablets | 数据均衡或者恢复过程中需要被调度的 tablet 数量 | |
JVM Old GC | Old Gc | |
JVM Young GC | Young gc | |
JVM Old | Jvm old size | |
JVM Young | Jvm young size | |
FE Collect Compaction Score | FE 搜集到的每个 BE 的 compaction score | |
JVM Non Heap | FE 的 jvm 的 non heap 使用情况 | |
JVM Threads | Jvm 的 thread 数量 | |
BE | Disk Usage | BE 的磁盘空间使用率 |
BE FD Count | BE 上 fd 的使用情况 | |
BE Thread Num | BE 的 thread 分布情况 | |
Tablet Meta Read | 单位时间内 BE 的元数据读取情况 | |
Tablet Meta Write | 单位时间内 BE 的元数据写入情况 | |
Tablet Distribution | BE 上 tablet 的分布情况 | |
BE Compaction Base | 单位时间内 BE 做 base compaction 任务的速率 | |
BE Compaction Cumulate | 单位时间内 BE 做 cumulative compaction 任务的速率 | |
BE Push Bytes | 单位时间内 BE push_request_write 的数据大小 | |
BE Push Rows | 单位时间内 BE push_request_write 的行数 | |
BE Scan Bytes | BE 单位时间内扫描的数据大小 | |
BE Scan Rows | BE 单位时间内扫描的数据行数 | |
BE Tasks | Finish Task Report | 每个 BE 上 task 完成的总数 |
Push Task | 每个 BE 上执行成功的 push task 得任务数量 | |
Push Task Cost Time | 每个 BE 上执行 push task 得耗时 | |
Delete | BE 上执行 delete 任务的总数 | |
Base Compaction | BE 上执行 base_compaction 任务的总数 | |
Cumulative Compaction | BE 上执行 cumulative_compaction 任务的总数 | |
Clone | BE 上执行 clone 任务的总数 | |
Create Rollup | BE 上执行 create_rollup 任务的总数 | |
Schema Change | BE 上执行 schema_change 任务的总数 | |
Create Tablet | BE 上执行 create_tablet 任务的总数 |
新建监控面板
在 Manager 中有两个监控面板:
-
Doris Dashboard Overview:预定义的 Doris 监控面板,提供基本的 Doris 与主机的监控项,无法修改
-
Default Custom Doris Dashboard Overview:用户自定义监控面板,可以修改
在新建面板时,可以修改 Default Custom Doris Dashboard Overview 面板,增加自定义 dashboard。
-
选择 Default Custom Doris Dashboard Overview 看板
在监控页面左上角选择 Default Custom Doris Dashboard Overview 面板:
-
复制一个新的 dashboard
复制一个新的面板(panel),可以退拽到任意模块中:
-
编辑复制的面板
编辑面板,规则参照 edit panel (opens in a new tab)。
管理集群监控
开启/关闭集群监控
在用户配置中选择服务配置,可以开启或关闭监控与告警服务。
开启/关闭监控认证
自 Doris Manager v24.0.3 版本后,默认为监控组件设置认证功能。可以为 Prometheus、AlertManager 与 Grafana 分别设置账号与密码。在 webserver/conf/manager.conf
文件中可以修改一下配置:
配置 | 类型 | 说明 |
---|---|---|
MONITOR_AUTH_ENABLE | BOOLEAN | 打开或关闭监控认证,默认为 TRUE。 |
GRAFANA_USER | STRING | Grafana 用户名,目前只支持 admin 用户。 |
GRAFANA_PASS | STRING | Grafana 密码,不单独配置会为其设置随机密码。 |
PROMETHEUS_USER | STRING | Prometheus 用户名,默认使用 admin 用户。 |
PROMETHEUS_PASS | STRING | Prometheus 密码,不单独配置会为其设置随机密码。 |
ALERTMANAGER_USER | STRING | AlertManager 用户名,默认使用 admin。 |
ALERTMANAGER_PASS | STRING | AlertManager 密码,不单独配置会为其设置随机密码。 |