找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 108|回复: 1

[MBH] [MBH]_系统健康检查

[复制链接]

10

主题

0

回帖

52

积分

注册会员

积分
52
发表于 2023-4-14 16:19:12 | 显示全部楼层 |阅读模式
一.通过Haproxy监控页面查看服务状态,保证需要用到的服务状态正常(绿色或浅蓝色)


二.检查Mongo,登录任意Mango所在节点。
输入:$MONGO_HOME/sbin/check_mongo*status.sh   #打印[OK]即正常


三.检查redis,登录redis所在节点。
输入:$REDIS_HOME/sbin/check_redis*status.sh  #打印[OK]即正常


四.检查hivecore版本,hivecore:1.0.170801之前的版本有句柄泄漏的问题,长时间运行会导致业务异常、系统变慢,还会影响mysql的检测(具体表现为haproxy监控页面mysql颜色正常和异常来回切换)
输入:docker ps -a | grep hivecore
通过以下命令可以查看句柄数,正常情况下句柄数低于10000
输入:ls -l /proc/$(ps -ef | grep -v grep | grep '=8789,' | awk '{print $2}')/fd | wc -l
解决办法:临时解决当句柄数超过200000重启一次hivecore  #避免影响业务,请在非业务时间段操作
          永久解决需升级hivecore版本至1.0.170801以上

五.查看磁盘可用空间
输入:df -h
PS: “/”或“/sobeyhive”使用量超过80%则需要清理或扩容

六.查看容器资源使用情况:docker stats
主要关注内存使用率,内存使用量超过15G或使用率超过90%的容器需关注
通过docker ps -a | grep id查看容器名称,如docker ps -a | grep 64821b321368






13

主题

2

回帖

59

积分

注册会员

积分
59
发表于 2023-4-19 10:55:50 | 显示全部楼层
追加
1. Kafka, ZK 需要单独检查
2. IngestDevice 需要每台检查是否存在迁移堵塞,程序Crash
3. EDL/Transform 需要每台检查是否存在任务堵塞,程序Crash
4. 多站点需要检查是否出现任务堵塞,程序Crash
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|Sobey-IBG-BBS

GMT+8, 2025-12-6 14:37 , Processed in 0.018264 second(s), 22 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表