技术基础 |重要指标和警报,什么叫主要技术指标

摘要：

DSEOpsCenter使用JMX收集指标并将其存储在DSE中，并使用这些指标进行可视化和报警。指标收集函数要求DataTaxAgent已在DSE节点上运行。本文旨在提供这方面的指导，并帮助您了解一些最重要的指标。与每个表相关的指标：跟踪最重要表的这些指标非常有用，以确保满足SLA要求并避免出现问题。通过JMX DataTax暴露的重要指标建议使用以下指标来监控和生成超过阈值的警报。

本文节选自DataStax Cassandra文档，点击这里查看更多相关信息。

监控Apache Cassandra®和DataStax Enterprise（DSE）集群是一项非常重要的工作，它帮助您识别集群中的问题并及时地应对并缓解问题。

Apache Cassandra和DSE都公开了用于观察和分析的指标。Cassandra通过使用Java管理扩展（Java Management Extensions，即JMX）公开了各种指标、允许临时的配置更改（如更改压实操作的吞吐量），并支持操作的执行（如触发压实操作）。nodetool和其他Cassandra工具也使用JMX。Cassandra文档中描述了不同类型的公开指标。

注意：JMX是Java中的一项技术，它提供了用于管理和监控应用程序的工具。

您可以使用以下工具来收集指标以进行分析：

使用JMX的一次性分析工具，包括JConsole、jmxterm和nodetool sjk，我们会在下面介绍。
DSE OpsCenter使用JMX收集指标并将其存储在DSE中，并将这些指标用于可视化和告警。指标收集功能要求DataStax Agent已经在DSE节点上运行。
DSE Metrics Collector通过collectd从DSE和其他实体（例如CPU和磁盘）收集指标。
DSE Metrics Collector还通过collectd插件与不同的监控系统集成。例如，您可以将指标数据暴露给Prometheus并通过Grafana使用预定义的监控图表(predefined dashboard)可视化。由于指标数据是直接暴露的，您不需要在节点上运行OpsCenter的DataStax Agent。
用于Apache Cassandra的Metrics Collector（即MCAC）与Prometheus和Grafana（也包含预定义的监控图表）提供与DSE Metrics Collector相同的功能。
如果需要使用跟像是Prometheus这样的监控系统集成的外部工具（比如JMX Exporter for Prometheus）或其他监控工具，可能需要进行其他调整或需要自行创建监控图表。

使用以上的任何一种方法，您都会获得很多信息。每个键空间(keyspace)大约有40个监控数据，每个数据库表有60至70个监控数据，另外不同的子系统还拥有更多的监控数据。本文旨在提供这方面的指导，帮助大家理解其中最重要的一些指标。

您需要监视什么？

需要监控的重要指标可以分为几组：

与客户请求相关的指标：从客户端程序的角度来看，系统的性能如何。
- 协调节点(Coordinator)层级上的读写操作延迟，尤其要关注P95和P99个百分位。
- 客户端连接数。
与处理数据并执行不同任务的线程池相关的监测数据：比如压实和数据的flush。
- 多少个线程处于阻塞(blocked)状态。例如：memtable flush writer、memtable池分配等。
- 多少个线程处于弃用(aborted)状态，例如弃用的压实。
- 有多少个线程处于待发生(pending)状态，例如待发生的压实和待发生的flush。
与Thread-per-Core（即TPC）相关的指标。

仅适用于DSE 6.0及更高版本。

与各个表相关的指标：跟踪最重要的表的这些指标非常有用，这样就可以确保满足SLA的要求，并避免出现问题。
- 分区大小。
- SSTable的整体数量。
- 每个请求读取的SSTable数。
- 读取请求扫描的墓碑数。
- 协调节点层级上的读写延迟。
与集群间通信有关的指标：这些指标提供关于集群中的数据交换的信息——数据复制(Replication)、Hinted Handoff等：
- 丢失的数据变更和其他消息的数量。
- 超时的总次数和每个主机的超时次数。
- 跨数据中心延迟。
- 磁盘上的hints数量。
- hints重传（失败和超时的hint信息的数量）。
与Java虚拟机（JVM）相关的指标：
- 内存的使用量。
- 垃圾回收引起的暂停时长。
与操作系统和硬件有关的指标：
- 节点的CPU使用率。
- 可用的磁盘空间。