SelectDB Cloud
管理指南
监控告警

监控概览

SelectDB Cloud 提供性能监控和告警功能,以便你捕捉集群动态,感知仓库或集群健康状况与负载,并做出针对性的调整。

除短信告警通知外,SelectDB Cloud 提供的监控、告警服务不额外收费。

你可以在 左侧导航栏找到 监控 功能,同时,你可以:

  • 按照仓库或集群查看监控。
  • 使用“收藏”功能,将仓库和不同集群中关心的监控指标放在一起展示。
  • 通过调整时间选择器,查看历史监控数据,你可以查看15天内的监控数据。
  • 使用自动刷新功能,实时(5s)更新监控指标。

你可以在 SelectDB Cloud 控制台中使用的监控数据分为两类:

  • 基础指标 :基础指标数据有助于你监控仓库或集群的物理方面,例如 CPU 使用率、内存使用量和网络吞吐量等。
  • 服务指标 :服务指标数据可以帮助你监控仓库或集群的活动和性能,例如 QPS、查询成功率等。有助于了解数据库的特定工作负载。

基础指标

基础指标 按照“节点”维度 ,提供仓库或集群的物理监测信息。

你可以通过基础指标,判断仓库或集群在指定时间范围内是否异常。也可以查看历史或当前查询是否对仓库或集群性能造成了影响。

你可以通过基础指标来辅助诊断查询速度慢的原因,并采取可能的措施,如扩缩容集群,优化 SQL 语句等。

我们提供了以下的基础指标:

CPU 使用率

显示所有节点的 CPU 利用率百分比,在计划集群扩缩容与其他资源消耗型操作前,可以从这个图表找到集群使用率最低的时间。

内存使用量

显示所有节点的内存使用量,如果内存使用量持续较高,你应该考虑扩容集群。

内存使用率

显示所有节点的内存使用率,如果内存使用率持续较高,你应该考虑扩容集群。

I/O 使用率

显示硬盘 I/O 的利用率。如果 I/O Util 总维持在较高的位置,你可以考虑拓展更多的节点,以获取更好的查询性能。

网络流出吞吐量

显示每秒通过读取的平均兆字节数。通常来说,通过网络读的查询速度较慢,应当通过缓存的正确设置,尽量的减少查询时的网络读取。

网络流入吞吐量

显示每秒通过写入的平均兆字节数。

缓存读吞吐量

显示节点硬盘每秒读的平均兆字节数。在 SelectDB Cloud,缓存读吞吐量展示集群对缓存的访问情况。

缓存写吞吐量

显示节点硬盘每秒写平均兆字节数。在 SelectDB Cloud,缓存写吞吐量展示集群对缓存的写入情况。

基础指标支持范围

监控指标仓库集群
CPU使用率支持支持
内存使用量支持支持
内存使用率支持支持
I/O 使用率支持支持
网络流出吞吐量支持支持
网络流入吞吐量支持支持
缓存读吞吐量不支持支持
缓存写吞吐量不支持支持

服务指标

每秒查询次数(QPS)

显示每秒的响应请求数,即集群的吞吐能力;可以根据业务系统中峰值时间内的 QPS 来决定所需的集群节点大小或所需机器数量。

查询成功率

显示按照分钟更新的成功查询占全部查询的比例;当查询成功率发生异常下降时,考虑是否出现了集群、节点的故障。

失效节点数

显示当前集群中失效的节点数。

查询平均耗时

显示按照分钟更新的查询生命周期结束的平均时间。SelectDB Cloud 是实时高性能数据库,你应该控制查询平均耗时在 1s 以下,如果查询平均耗时过高,考虑调整集群节点大小或优化查询语句。如果查询平均耗时异常上升,需要考虑故障排查。

99th 查询耗时

展示给定时间内,统计升序排列排在第 99% 位置的请求的响应时间,可以反应集群慢查询的速度。

缓存命中率

显示命中缓存的读写操作占所有读写操作的百分比。如果缓存命中率过低,需要考虑更改缓存策略,或者提升缓存盘大小,来提升缓存被命中的可能。

远端存储读吞吐量

单位时间内读取远端存储的数据量。

连接数

显示当前仓库的连接数,不区分集群。

每秒写入行数

展示数据写入操作效率的指标,表示当前成功写入数据库或其他数据存储系统的记录行数的速度。

每秒写入数据大小

展示当前写入任务的速率,以数据大小体现。

完成的写入任务数

展示该仓库最近一段时间完成的任务数,如果发生陡升或者陡降则可能意味着业务异常。不区分集群。

数据合并压力值

当前集群所有节点中最大的数据合并压力值。

事务延迟值

当前仓库写入任务的事务延迟。

服务指标支持范围

监控指标仓库集群
每秒查询次数支持支持
查询成功率支持支持
失效节点数不支持支持
查询平均耗时支持支持
99th 查询耗时支持支持
缓存命中率不支持支持
远端存储读吞吐量不支持支持
连接数支持不支持
每秒写入行数支持支持
每秒写入数据大小支持支持
完成的写入任务数支持不支持
数据合并压力值不支持支持
事务延迟值支持不支持

告警概览

你可以通过配置策略,在集群监控指标发生变化时,获得通知。

告警配置

查看告警策略

你可以在列表页查看现有告警策略,以及其当前的告警情况。

红色”表示这条告警策略正在生效,“绿色”表示当前告警策略未被触发。

新建/编辑告警策略

你可以点击 新建告警策略或者复制现有的告警策略并 修改 来创建告警策略。

你也可以修改现存的告警策略。

告警策略配置由四部分组成:

告警名称

你可以自定义告警名称,在同一个数据仓库下,告警名称不能重复。

生效集群

你可以指定告警策略生效的 一个集群

当集群被销毁时,其下属的告警策略会被删除。

统计时间

统计时间是指满足告警条件的持续时间,你应该妥善设置这个时间,以获得告警及时性与准确性的平衡。

告警条件

你可以设置一条或多条指标满足的条件,并设置这些条件组合方式(且、或)。

告警方式设置

你可以设置一条或多条告警条件,告警信息将按照设置的告警方式分别推送。

站内通知

配置方式:选择用户

邮箱

配置方式:选择用户

短信

配置方式:选择用户 / 填写手机号

企业微信

配置方式:填写机器人 Webhook

1、打开企业微信群,在群聊中选择添加群机器人,「新建」一个机器人

2、为机器人命名

2、复制 Webhook

注意 如果需要限制消息来源,请设置 IP 白名单。SelectDB Cloud 服务端 IP 地址:39.96.166.186。

飞书

配置方式:填写机器人 Webhook

添加飞书群聊机器人并获取 Webhook 的方式:

1、打开飞书,进入群聊后,选择群聊-设置-群机器人

2、添加机器人-自定义机器人

3、点击添加

4、获取 Webhook

注意 如果需要限制消息来源,请设置 IP 白名单。SelectDB Cloud 服务端 IP 地址:39.96.166.186。

钉钉

配置方式:填写机器人 webhook

添加钉钉机器人获取 webhook 的方式参见 自定义机器人接入 (opens in a new tab)

1、在钉钉群中找到群设置

2、选择智能群助手

3、选择添加机器人

4、选择添加“自定义”机器人

5、进行安全配置,选择关键词,输入“Alert”

注意 如果需要限制消息来源,请设置 IP 白名单。SelectDB Cloud 服务端 IP 地址:39.96.166.186。

6、复制 Webhook

查看告警历史

你可以查看告警历史,并进行筛选。

© 2025 北京飞轮数据科技有限公司 京ICP备2022004029号 | Apache、Apache Doris 以及相关开源项目名称均为 Apache 基金会商标