告警策略(节点级别)
目标
KubeSphere 为节点和工作负载提供告警策略。本指南演示如何为集群中的节点创建告警策略以及如何配置电子邮件通知。如需了解如何为工作负载配置告警策略,请参见告警策略(工作负载级别)。
准备工作
- 您需要启用 KubeSphere 告警和通知系统。
- 您需要配置邮件服务器。
动手实验
任务 1:创建一个告警策略
-
使用具有
platform-admin
角色的帐户登录控制台。 -
点击左上角的平台管理,然后选择集群管理。
-
从列表中选择一个集群并进入该集群(如果您未启用多集群功能,则将直接转到概览页面)。
-
转到监控告警下的告警策略,点击创建.
任务 2:提供基本信息
在弹出对话框中,填写如下基本信息。完成操作后,点击下一步。
- 名称:该告警策略的简明名称,例如
alert-demo
,用作其唯一标识符。 - 别名:帮助您更好地区分告警策略,支持中文。
- 描述信息:告警策略的简要介绍。
任务 3:选择监控目标
在节点列表中选择节点,或使用节点选择器选择一组节点作为监控目标。为了方便演示,此处选择一个节点。完成操作后,点击下一步。
备注
按 CPU 使用率排行
、按内存使用率排行
、按容器组用量排行
。任务 4:添加告警规则
-
点击添加规则创建告警规则。告警规则定义指标类型、检查周期、连续次数、指标阈值和告警级别等多个参数,可提供丰富配置。检查周期(规则下的第二个字段)表示两次连续指标检查之间的时间间隔。例如,
2 分钟/周期
表示每 2 分钟检查一次指标。连续次数(规则下的第三个字段)表示检查的指标满足阈值的连续次数。只有当实际次数等于或大于告警策略中设置的连续次数时,才会触发告警。 -
在本示例中,将这些参数分别设置为
内存利用率
、1 分钟/周期
、连续2次
、>
、50%
和重要告警
。这意味着 KubeSphere 会每 1 分钟检查一次内存利用率,如果连续 2 次大于 50%,则会触发此重要告警。 -
完成操作后,点击 √ 保存规则,然后点击下一步继续。
备注
您可以为以下指标创建节点级别的告警策略:
- CPU:
CPU利用率
、CPU 1分钟平均负载
、CPU 5分钟平均负载
、CPU 15分钟平均负载
- 内存:
内存利用率
、可用内存
- 磁盘:
inode利用率
、本地磁盘可用空间
、本地磁盘空间利用率
、本地磁盘写入吞吐量
、本地磁盘读取吞吐量
、本地磁盘读取IOPS
、本地磁盘写入IOPS
- 网络:
网络发送数据速率
、网络接收数据速率
- 容器组:
容器组异常率
、容器组利用率
任务 5:设置通知规则
-
通知有效时间用于设置通知电子邮件的发送时间,例如
09:00
至19:00
。 通知渠道目前仅支持邮箱。您可以在通知列表中添加要通知的成员的邮箱地址。 -
自定义重复规则用于定义通知邮件的发送周期和重发次数。如果告警未被解除,则会在一段时间后重复发送通知。不同级别的告警还可以设置不同的重复规则。上一步中设置的告警级别为
重要告警
,因此在重要告警的第二个字段选择每 5 分钟警告一次
(发送周期),并在第三个字段中选择最多重发3次
(重发次数)。请参考下图设置通知规则: -
点击创建,您可以看到告警策略已成功创建。
备注
任务 6:查看告警策略
成功创建告警策略后,您可以进入其详情页面查看状态、告警规则、监控目标、通知规则和告警历史等信息。点击更多操作,然后从下拉菜单中选择更改状态可以启用或禁用此告警策略。