您正在查看 KubeSphere 版本的文档:v3.0.0

KubeSphere v3.0.0 版本的文档已不再维护。您现在看到的版本来自于一份静态的快照。如需查阅最新文档,请点击 最新版本

告警策略(节点级别)

目标

KubeSphere 为节点和工作负载提供告警策略。本指南演示如何为集群中的节点创建告警策略以及如何配置电子邮件通知。如需了解如何为工作负载配置告警策略,请参见告警策略(工作负载级别)

准备工作

动手实验

任务 1:创建一个告警策略

  1. 使用具有 platform-admin 角色的帐户登录控制台。

  2. 点击左上角的平台管理,然后选择集群管理

    选择集群管理

  3. 从列表中选择一个集群并进入该集群(如果您未启用多集群功能,则将直接转到概览页面)。

  4. 转到监控告警下的告警策略,点击创建.

    点击创建

任务 2:提供基本信息

在弹出对话框中,填写如下基本信息。完成操作后,点击下一步

  • 名称:该告警策略的简明名称,例如 alert-demo,用作其唯一标识符。
  • 别名:帮助您更好地区分告警策略,支持中文。
  • 描述信息:告警策略的简要介绍。

基本信息

任务 3:选择监控目标

在节点列表中选择节点,或使用节点选择器选择一组节点作为监控目标。为了方便演示,此处选择一个节点。完成操作后,点击下一步

监控目标

备注

您可以在下拉菜单中通过以下三种方式对节点列表中的节点进行排序:按 CPU 使用率排行按内存使用率排行按容器组用量排行

任务 4:添加告警规则

  1. 点击添加规则创建告警规则。告警规则定义指标类型、检查周期、连续次数、指标阈值和告警级别等多个参数,可提供丰富配置。检查周期(规则下的第二个字段)表示两次连续指标检查之间的时间间隔。例如,2 分钟/周期表示每 2 分钟检查一次指标。连续次数(规则下的第三个字段)表示检查的指标满足阈值的连续次数。只有当实际次数等于或大于告警策略中设置的连续次数时,才会触发告警。

    告警规则

  2. 在本示例中,将这些参数分别设置为内存利用率1 分钟/周期连续2次>50%重要告警。这意味着 KubeSphere 会每 1 分钟检查一次内存利用率,如果连续 2 次大于 50%,则会触发此重要告警。

  3. 完成操作后,点击 保存规则,然后点击下一步继续。

备注

您可以为以下指标创建节点级别的告警策略:

  • CPU:CPU利用率CPU 1分钟平均负载CPU 5分钟平均负载CPU 15分钟平均负载
  • 内存:内存利用率可用内存
  • 磁盘:inode利用率本地磁盘可用空间本地磁盘空间利用率本地磁盘写入吞吐量本地磁盘读取吞吐量本地磁盘读取IOPS本地磁盘写入IOPS
  • 网络:网络发送数据速率网络接收数据速率
  • 容器组:容器组异常率容器组利用率

任务 5:设置通知规则

  1. 通知有效时间用于设置通知电子邮件的发送时间,例如 09:0019:00通知渠道目前仅支持邮箱。您可以在通知列表中添加要通知的成员的邮箱地址。

  2. 自定义重复规则用于定义通知邮件的发送周期和重发次数。如果告警未被解除,则会在一段时间后重复发送通知。不同级别的告警还可以设置不同的重复规则。上一步中设置的告警级别为重要告警,因此在重要告警的第二个字段选择每 5 分钟警告一次(发送周期),并在第三个字段中选择最多重发3次(重发次数)。请参考下图设置通知规则:

    通知规则

  3. 点击创建,您可以看到告警策略已成功创建。

备注

告警等待时间 = 检查周期 x 连续次数。例如,如果检查周期为 1 分钟/周期,并且连续次数为 2,则需要等待 2 分钟后才会显示告警消息。

任务 6:查看告警策略

成功创建告警策略后,您可以进入其详情页面查看状态、告警规则、监控目标、通知规则和告警历史等信息。点击更多操作,然后从下拉菜单中选择更改状态可以启用或禁用此告警策略。

详情页面