关于hadoop的运行的一些指标监控(非cdh平台的)

摘要:
类型指示符项描述MemNonHeapUsedMJVM当前使用的内存大小MemNonHeapMaxMJVM配置非HeapMemory MemHeapUsed MJVM的大小当前使用的堆内存MemHeapMaxMJVVM配置堆内存MemHeapMaxMJVM的大小配置MemMaxMJV运行时可使用的最大内存大小GCGcCountGC times ThreadsNew当前线程处于NEW状态的线程数ThreadsRunnable当前线程处于RUN状态

在hadoop-env.sh中添加:

# 在配置namenode和datanode时都会有用到JMX_OPTS的代码,是为了减少重复提取出的公共代码
export JMX_OPTS="-Dcom.sun.management.jmxremote -Dcom.sun.management.jmxremote.authenticate=false -Dcom.sun.management.jmxremote.ssl=false -Dcom.sun.management.jmxremote.port"# 在源hadoop-env.sh中存在$JMX_OPTS之前的代码,JMX_OPTS=8006表示设置jmx的端口
export HADOOP_NAMENODE_OPTS="-Dhadoop.security.logger=${HADOOP_SECURITY_LOGGER:-INFO,RFAS} -Dhdfs.audit.logger=${HDFS_AUDIT_LOGGER:-INFO,NullAppender} $HADOOP_NAMENODE_OPTS $JMX_OPTS=8006"export HADOOP_DATANODE_OPTS="-Dhadoop.security.logger=ERROR,RFAS $HADOOP_DATANODE_OPTS $JMX_OPTS=8007"export HADOOP_SECONDARYNAMENODE_OPTS="-Dhadoop.security.logger=${HADOOP_SECURITY_LOGGER:-INFO,RFAS} -Dhdfs.audit.logger=${HDFS_AUDIT_LOGGER:-INFO,NullAppender} $HADOOP_SECONDARYNAMENODE_OPTS $JMX_OPTS=8060"

在web页面查看只需要:

df1:50070/jmx

df2:50075/jmx

df3:50075/jmx

关于hadoop的运行的一些指标监控(非cdh平台的)第1张

Hadoop监控项

指标信息来源:http://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-common/Metrics.html

NameNode

JVM监控项

Hadoop:service=NameNode,name=JvmMetrics

JvmMetrics 主要统计的信息包括:内存的使用状态信息; GC 的统计信息;线程的统计信息;以及事件的统计信息。

类型指标项说明
内存MemNonHeapUsedMJVM 当前已经使用的 NonHeapMemory 的大小
内存MemNonHeapMaxMJVM 配置的 NonHeapMemory 的大小
内存MemHeapUsedMJVM 当前已经使用的 HeapMemory 的大小
内存MemHeapMaxMJVM 配置的 HeapMemory 的大小
内存MemMaxMJVM 运行时的可以使用的最大的内存的大小
GCGcCountGC次数
线程ThreadsNew当前线程的处于 NEW 状态下的线程数量
线程ThreadsRunnable当前线程的处于 RUNNABLE 状态下的线程数量
线程ThreadsBlocked当前线程的处于 BLOCKED 状态下的线程数量
线程ThreadsWaiting当前线程的处于 WAITING 状态下的线程数量
线程ThreadsTimedWaiting当前线程的处于 TIMED_WAITING 状态下的线程数量
线程ThreadsTerminated当前线程的处于 TERMINATED 状态下的线程数量
事件LogFatal固定时间间隔内的 Fatal 的数量
事件LogError固定时间间隔内的 Error 的数量
事件LogWarn固定时间间隔内的 Warn 的数量
事件LogInfo固定时间间隔内的 Info 的数量

FSNamesystem

Hadoop:service=NameNode,name=FSNamesystem
指标项说明
MissingBlocks当前遗失的block数量
ExpiredHeartbeats失去心跳的总数量
TransactionsSinceLastCheckpoint自上次检查点以来的事务总数
TransactionsSinceLastLogRoll自上次编辑日志卷以来的事务总数
LastCheckpointTime从上一个检查点以来的时间(毫秒)
CapacityTotal当前数据节点的原始容量(以字节为单位)
CapacityUsed当前在所有DataNode中使用的容量(以字节为单位)
CapacityRemaining当前剩余容量(字节)
CapacityUsedNonDFSDataNodes用于非DFS目的的当前空间(以字节为单位)
TotalLoad当前连接数
SnapshottableDirectories可快照目录的当前数量
FilesTotal当前文件和目录的数量
PendingDataNodeMessageCount待机NameNode中用于以后处理的挂起的与块相关的消息的当前数量
StaleDataNodes由于心跳延迟而标记为过期的DataNodes当前数目
Hadoop:service=NameNode,name=FSNamesystemState
指标项说明
BlocksTotal系统中当前分配的块数
NumLiveDataNodes当前运行的数据节点数量
NumDeadDataNodes当前死亡的数据节点数
VolumeFailuresTotal所有Datanodes的卷故障总数
EstimatedCapacityLostTotal容量故障导致的总容量损失估计

RPC

Hadoop:service=NameNode,name=RpcActivityForPort9000(需要进一步确认)
指标项说明
ReceivedBytes接收字节总数
SentBytes发送字节总数
RpcQueueTimeNumOpsRPC调用总数
RpcQueueTimeAvgTimeRPC队列平均时间(以毫秒为单位)

NameNodeActivity

Hadoop:service=NameNode,name=NameNodeActivity
指标项说明
CreateFileOps创建文件的操作总数
FilesRenamed重命名操作的总数(不是重命名的文件或目录数量)
DeleteFileOps删除文件的操作总数

DataNode

JVM监控项

Hadoop:service=DataNode,name=JvmMetrics

JvmMetrics 主要统计的信息包括:内存的使用状态信息; GC 的统计信息;线程的统计信息;以及事件的统计信息。

类型指标项说明
内存MemNonHeapUsedMJVM 当前已经使用的 NonHeapMemory 的大小
内存MemNonHeapMaxMJVM 配置的 NonHeapMemory 的大小
内存MemHeapUsedMJVM 当前已经使用的 HeapMemory 的大小
内存MemHeapMaxMJVM 配置的 HeapMemory 的大小
内存MemMaxMJVM 运行时的可以使用的最大的内存的大小
GCGcCountGC次数
线程ThreadsNew当前线程的处于 NEW 状态下的线程数量
线程ThreadsRunnable当前线程的处于 RUNNABLE 状态下的线程数量
线程ThreadsBlocked当前线程的处于 BLOCKED 状态下的线程数量
线程ThreadsWaiting当前线程的处于 WAITING 状态下的线程数量
线程ThreadsTimedWaiting当前线程的处于 TIMED_WAITING 状态下的线程数量
线程ThreadsTerminated当前线程的处于 TERMINATED 状态下的线程数量
事件LogFatal固定时间间隔内的 Fatal 的数量
事件LogError固定时间间隔内的 Error 的数量
事件LogWarn固定时间间隔内的 Warn 的数量
事件LogInfo固定时间间隔内的 Info 的数量

DataNodeActivity

Hadoop:service=DataNode,name=DataNodeActivity-dev02-50010(需要进一步确认)
指标项说明
BytesWritten写入DataNode的字节总数
BytesRead读取DataNode的字节总数
ReadsFromLocalClient从本地客户端读取操作的总数
ReadsFromRemoteClient来自远程客户端的读取操作总数
WritesFromLocalClient本地客户端的写操作总数
WritesFromRemoteClient远程客户端的写操作总数
RemoteBytesRead远程客户端读取的字节数
RemoteBytesWritten远程客户端写入的字节数
RamDiskBytesWrite写入内存的字节总数
VolumeFailures发生的卷故障总数
ReadBlockOpNumOps读操作总数
WriteBlockOpNumOps写操作总数
ReadBlockOpAvgTime读操作的平均时间(以毫秒为单位)
WriteBlockOpAvgTime写操作的平均时间(以毫秒为单位)
TotalWriteTime写操作花费的总毫秒数
TotalReadTime读操作花费的总毫秒数

RPC

Hadoop:service=DataNode,name=RpcActivityForPort50020(需要进一步确认)
指标项说明
ReceivedBytes接收字节总数
SentBytes发送字节总数
RpcQueueTimeNumOpsRPC调用总数
RpcQueueTimeAvgTimeRPC队列平均时间(以毫秒为单位)

免责声明:文章转载自《关于hadoop的运行的一些指标监控(非cdh平台的)》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇nextcloud开放注册-添加注册功能PostgreSQL:COALESCE函数下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

【转】使用Apache Kylin搭建企业级开源大数据分析平台

http://www.thebigdata.cn/JieJueFangAn/30143.html  本篇文章整理自史少锋4月23日在『1024大数据技术峰会』上的分享实录:使用Apache Kylin搭建企业级开源大数据分析平台。   正文如下   我先做一个简单介绍我叫史少锋,我曾经在IBM、eBay做过大数据、云架构的开发,现在是Kyligence的技...

大数据 Hadoop 单机版安装

1. 安装 JDK tar -zvxf jdk-8u201-linux-x64.tar.gz -C /opt/software cd /opt/software mv jdk1.8.0_201 jdk vim /etc/profile export JAVA_HOME=/opt/software/jdk export PATH=$JAVA_HOME/b...

java 大数据处理之内存溢出解决办法(一)

http://my.oschina.net/songhongxu/blog/209951 一、内存溢出类型 1、java.lang.OutOfMemoryError: PermGen space JVM管理两种类型的内存,堆和非堆。堆是给开发人员用的上面说的就是,是在JVM启动时创建;非堆是留给JVM自己用的,用来存放类的信息的。它和堆不同,运行期内GC不...

Hadoop源码分析5: RPC基本线程

1. 数据记录FileStatus public class FileStatus implements Writable {       private String filename;        private long time;        static {  // register IPCFileStatus        Writab...

大数据技术概论(纯理论)

大数据概念 大数据(Big Data):指无法在一定时间范围内用常规软件工具进行捕捉,管理和处理的数据集合,是需要新处理模式才能具有更强的决策力,洞察发现力和流程优化能力的海量,高增长率和多样化的信息资产 优点: Hadoop是一个能够对大量数据进行分布式处理的软件框架。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理 Hadoop 是可靠的,因...

CDH集群主节点宕机恢复

1       情况概述 公司的开发集群在周末莫名其妙的主节点Hadoop-1的启动固态盘挂了,由于CM、HDFS的NameNode、HBase的Master都安装在Hadoop-1,导致了整个集群都无法使用,好在数据不在启动盘。 Hadoop-1的系统必须重装,但是不能重装集群,因为要将之前的数据全部保留恢复,所以只能通过集群恢复的手段将集群重新跑起来。...