Doris 集群监控

在 Manager 中集成了 Prometheus、Grafana 与 AlertManager，可以在 Manager 中查看与管理集群的监控。

查看集群监控

Manager 提供了丰富的预制监控指标，帮助您实时了解集群的运行状况。

monitor

监控指标说明如下：

分类	指标名称	指标描述
Cluster Overview	FE Node	集群 FE 总节点数
	FE Not Alive	集群掉线的 FE 节点数
	Used Capacity	集群中 BE 的已使用空间
	BE Node	集群 BE 总节点数
	BE Not Alive	集群掉线的 BE 节点数
	Total Capacity	集群中 BE 可用存储空间
	FE JVM Heap Use Rate	集群中 FE 的 jvm heap 使用率
	BE Compaction Score	每个 BE 的 compaction score
	Load Rows Rate	单位时间内的数据导入情况
	QPS	不同 FE 的 qps 情况
	99th Latency	不同 FE 的 99 分位查询延时
Host Monitor	CPU Used Rate	节点的 cpu 使用率
	Mem Usage	节点的内存使用大小
	Mem Used Rate	节点的内存使用率
	I/O Util	单位时间内的磁盘 io util 情况
	DIsk Used Rate	磁盘空间已用百分比
	Disk Write Throughput	磁盘写能力的吞吐情况
	Disk Read Throughput	磁盘读能力的吞吐情况
	Network Outbound Traffic	网关的 Outbound 流量
	Network Inbound Traffic	网关的 inbound 流量
Query Statistic	RPS	单位时间内的不同 FE 的请求
	QPS	不同 FE 的 qps
	99th Latency	99 分位的查询延时
	Query Percentile	查询延时（不同分位）
	Query Error [1m]	1 min 内的查询失败率
	Connections	每个 FE 的连接数
Jobs	Broker Load Job	Broker load 任务状态分布
	Insert Load Job	Insert 任务状态分布
	Routine Load Job	Routine load 任务状态分布
	Spark Load Job	Spark load 任务状态分布
	Broker Load Tendency	Broker load 任务情况
	Insert Load Tendency	Insert 任务情况
	Routine Load Tendency	Routine load 任务情况
	Spark Load Tendency	Spark load 任务情况
	SC Job	正在运行的 schema change 任务数
	Report Queue Size	master 节点的 Report Queue Size
	Rollup Job	正在运行的 rollup 任务数
Transactions	Txn Begin/Success on FE	FE 上发起的 txn 和成功的 txn 总数
	Txn Failed/Reject on FE	单位时间内，BE 的 txn 的 failed 率和 reject 率
	Publish Task on BE	BE 上 publish task 得总数
	Txn Status on FE	不同状态的 txn 的数量
	Txn Load Bytes/Rows rate	单位时间内导入的数据的行数和大小
FE	Max Replayed Journal ID	FE 的 Journal ID
	Edit Log Size	FE 的 edit log 大小
	Image Write	FE 的 image write 次数
	Image Push	FE 的 image push 次数
	Image Counter	FE 的 image write 和 push 的次数
	Image Clean	Fe image 清理成功和失败的情况
	Edit log Clean	Fe edit log 清理成功和失败的情况
	BDBJE Write	BDBJE 的 99 分位写入延时
	BDBJE Read	单位时间内 BDBJE 的读
	JVM Heap	Fe jvm heap 使用情况
	Scheduling Tablets	数据均衡或者恢复过程中需要被调度的 tablet 数量
	JVM Old GC	Old Gc
	JVM Young GC	Young gc
	JVM Old	Jvm old size
	JVM Young	Jvm young size
	FE Collect Compaction Score	FE 搜集到的每个 BE 的 compaction score
	JVM Non Heap	FE 的 jvm 的 non heap 使用情况
	JVM Threads	Jvm 的 thread 数量
BE	Disk Usage	BE 的磁盘空间使用率
	BE FD Count	BE 上 fd 的使用情况
	BE Thread Num	BE 的 thread 分布情况
	Tablet Meta Read	单位时间内 BE 的元数据读取情况
	Tablet Meta Write	单位时间内 BE 的元数据写入情况
	Tablet Distribution	BE 上 tablet 的分布情况
	BE Compaction Base	单位时间内 BE 做 base compaction 任务的速率
	BE Compaction Cumulate	单位时间内 BE 做 cumulative compaction 任务的速率
	BE Push Bytes	单位时间内 BE push_request_write 的数据大小
	BE Push Rows	单位时间内 BE push_request_write 的行数
	BE Scan Bytes	BE 单位时间内扫描的数据大小
	BE Scan Rows	BE 单位时间内扫描的数据行数
BE Tasks	Finish Task Report	每个 BE 上 task 完成的总数
	Push Task	每个 BE 上执行成功的 push task 得任务数量
	Push Task Cost Time	每个 BE 上执行 push task 得耗时
	Delete	BE 上执行 delete 任务的总数
	Base Compaction	BE 上执行 base_compaction 任务的总数
	Cumulative Compaction	BE 上执行 cumulative_compaction 任务的总数
	Clone	BE 上执行 clone 任务的总数
	Create Rollup	BE 上执行 create_rollup 任务的总数
	Schema Change	BE 上执行 schema_change 任务的总数
	Create Tablet	BE 上执行 create_tablet 任务的总数

新建监控面板

在 Manager 中有两个监控面板：

Doris Dashboard Overview：预定义的 Doris 监控面板，提供基本的 Doris 与主机的监控项，无法修改
Default Custom Doris Dashboard Overview：用户自定义监控面板，可以修改

在新建面板时，可以修改 Default Custom Doris Dashboard Overview 面板，增加自定义 dashboard。

选择 Default Custom Doris Dashboard Overview 看板

在监控页面左上角选择 Default Custom Doris Dashboard Overview 面板：
复制一个新的 dashboard

复制一个新的面板（panel），可以退拽到任意模块中：
编辑复制的面板

编辑面板，规则参照 edit panel (opens in a new tab)。

管理集群监控

开启/关闭集群监控

在用户配置中选择服务配置，可以开启或关闭监控与告警服务。

enable-monitor

开启/关闭监控认证

自 Manager v24.0.3 版本后，默认为监控组件设置认证功能。可以为 Prometheus、AlertManager 与 Grafana 分别设置账号与密码。在 webserver/conf/manager.conf 文件中可以修改一下配置：

配置	类型	说明
MONITOR_AUTH_ENABLE	BOOLEAN	打开或关闭监控认证，默认为 TRUE。
GRAFANA_USER	STRING	Grafana 用户名，目前只支持 admin 用户。
GRAFANA_PASS	STRING	Grafana 密码，不单独配置会为其设置随机密码。
PROMETHEUS_USER	STRING	Prometheus 用户名，默认使用 admin 用户。
PROMETHEUS_PASS	STRING	Prometheus 密码，不单独配置会为其设置随机密码。
ALERTMANAGER_USER	STRING	AlertManager 用户名，默认使用 admin。
ALERTMANAGER_PASS	STRING	AlertManager 密码，不单独配置会为其设置随机密码。

配置集群 Doris 集群告警