找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 121|回复: 0

[Cloud] [云媒资]_Kubnernetes_ACK集群的ECS实例本地空间被系统日志写爆了

[复制链接]

13

主题

0

回帖

58

积分

版主

积分
58
发表于 2023-4-12 11:47:36 | 显示全部楼层 |阅读模式
场景:
云媒资是运行在阿里云的ACK集群里面(即阿里云托管的Kubernetes集群),在服务运行一段时间后会遇到ACK集群管理的ECS实例的本地空间,被大量的Linux系统日志写爆了。就会出现cma等服务各种异常表现,具体的哪里出问题还无法具体预知。

处理方式:
在跳板机上,通过Xshell远程到ACK集群管理的ECS实例上,运行下面的命令检查Linux磁盘空间状态
  1. <blockquote>[root@iZ2zeb8p8rupsbrw8jdzf6Z log]# df -h
复制代码
可以看到,磁盘空间已经到达了79%的使用率,基于经验,空间使用率将近80%的时候,就可能会引起cma等服务的各种异常情况
需要执行下面的命令确认具体是什么文件占用了大量的空间
首先我们需要在Linux的根目录下面执行命令,检查具体是哪个Folder空间占用大
  1. [root@iZ2zeb8p8rupsbrw8jdzf5Z /]# du -h --max-depth=1
  2. 16K        ./lost+found
  3. 185M        ./root
  4. 49M        ./opt
  5. 0        ./sys
  6. 8.8G        ./run
  7. 9.1M        ./tmp
  8. 0        ./proc
  9. 148M        ./boot
  10. 4.0K        ./media
  11. 2.5G        ./usr
  12. 0        ./dev
  13. 4.0K        ./srv
  14. 28G        ./var
  15. 331M        ./etc
  16. 4.0K        ./mnt
  17. 4.0K        ./home
  18. 40G        .
复制代码
可以看到其中./var这个文件夹的容量已经到达了28G,占用非常大。最下面的40G 是整个Linux的存储空间总量,无需关注。
然后我们进入var文件夹,检查它下面具体是什么文件夹占用过大
  1. <blockquote>[root@iZ2zeb8p8rupsbrw8jdzf5Z /]# cd /var/
复制代码
可以看到./log这个文件夹占用了15G,我们在继续往下排查
  1. [root@iZ2zeb8p8rupsbrw8jdzf5Z log]# du -h --max-depth=1
  2. 156M        ./alicloud
  3. 8.0K        ./tuned
  4. 36M        ./audit
  5. 24K        ./rhsm
  6. 4.2M        ./security-inspector
  7. 70M        ./sa
  8. 4.0K        ./anaconda
  9. 12K        ./fluentd
  10. 148K        ./acs
  11. 4.0K        ./chrony
  12. 1.8G        ./pods
  13. 2.0G        ./journal
  14. 140K        ./containers
  15. 15G        .
复制代码

可以看到log文件夹下面的文件夹都没有特别大的,反而log这个文件夹的容量是15G,所以我们接下来需要检查log文件夹下面的文件大小。
  1. [root@iZ2zeb8p8rupsbrw8jdzf5Z log]# ls -lh
  2. total 11G
  3. -rw-r--r--   1 root   root            141K Nov 25 15:19 ack-deploy.log
  4. drwxr-xr-x   2 root   root            4.0K Nov 25 15:18 acs
  5. ... ...
  6. -rw-------   1 root   root            1.5G Apr 12 10:39 messages
  7. -rw-------   1 root   root            458M Mar 20 03:09 messages-20230320
  8. -rw-------   1 root   root            2.8G Mar 26 03:46 messages-20230326
  9. -rw-------   1 root   root            3.2G Apr  2 03:26 messages-20230402
  10. -rw-------   1 root   root            3.2G Apr  9 03:10 messages-20230409
复制代码
可以看到message这几个文件明显是罪魁祸首,这个文件是Linux生成的系统文件,我们可以直接用下面的命令删除,达到释放空间的目的
  1. [root@iZ2zeb8p8rupsbrw8jdzf5Z log]# rm -rf messages-20230320
复制代码
依次对message文件进行删除操作之后,可以再用df -h命令检查磁盘空间,可以看到明显的空间释放

在释放空间之后,需要对cma服务进行重启,才能恢复业务
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|Sobey-IBG-BBS

GMT+8, 2025-12-6 14:29 , Processed in 0.017859 second(s), 23 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表