中国领先的IT技术网站
|
|

linux 系统监控、诊断工具之 IO wait

最近在做日志的实时同步,上线之前是做过单份线上日志压力测试的,消息队列和客户端、本机都没问题,但是没想到上了第二份日志之后,问题来了……

作者:xrzs来源:oschina|2014-12-15 10:06

【沙龙】51CTO诚邀您9月23号和多位技术大咖一起聊智能CDN的优化之路,抓紧时间哦!


1、问题:

最近在做日志的实时同步,上线之前是做过单份线上日志压力测试的,消息队列和客户端、本机都没问题,但是没想到上了第二份日志之后,问题来了:

集群中的某台机器 top 看到负载巨高,集群中的机器硬件配置一样,部署的软件都一样,却单单这一台负载有问题,初步猜测可能硬件有问题了。

同时,我们还需要把负载有异常的罪魁祸首揪出来,到时候从软件、硬件层面分别寻找解决方案。

2、排查:

从 top 中可以看到 load average 偏高,%wa 偏高,%us 很低:

从上图我们大致可以推断 IO 遇到了瓶颈,下面我们可以再用相关的 IO 诊断工具,具体的验证排查下。

PS:如果你对 top 的用法不了解,请参考我去年写的一篇博文:

linux 系统监控、诊断工具之 top 详解

常用组合方式有如下几种:

• 用vmstat、sar、iostat检测是否是CPU瓶颈
• 用free、vmstat检测是否是内存瓶颈
• 用iostat、dmesg 检测是否是磁盘I/O瓶颈
• 用netstat检测是否是网络带宽瓶颈

2.1 vmstat

vmstat命令的含义为显示虚拟内存状态(“Viryual Memor Statics”),但是它可以报告关于进程、内存、I/O等系统整体运行状态。

它的相关字段说明如下:

  1. Procs(进程)  
  2. • r: 运行队列中进程数量,这个值也可以判断是否需要增加CPU。(长期大于1)  
  3. • b: 等待IO的进程数量,也就是处在非中断睡眠状态的进程数,展示了正在执行和等待CPU资源的任务个数。当这个值超过了CPU数目,就会出现CPU瓶颈了  
  4.    
  5. Memory(内存)  
  6. • swpd: 使用虚拟内存大小,如果swpd的值不为0,但是SI,SO的值长期为0,这种情况不会影响系统性能。  
  7. • free: 空闲物理内存大小。  
  8. • buff: 用作缓冲的内存大小。  
  9. • cache: 用作缓存的内存大小,如果cache的值大的时候,说明cache处的文件数多,如果频繁访问到的文件都能被cache处,那么磁盘的读IO bi会非常小。  
  10.    
  11. Swap  
  12. • si: 每秒从交换区写到内存的大小,由磁盘调入内存。  
  13. • so: 每秒写入交换区的内存大小,由内存调入磁盘。  
  14. 注意:内存够用的时候,这2个值都是0,如果这2个值长期大于0时,系统性能会受到影响,磁盘IO和CPU资源都会被消耗。有些朋友看到空闲内存(free)很少的或接近于0时,就认为内存不够用了,不能光看这一点,还要结合si和so,如果free很少,但是si和so也很少(大多时候是0),那么不用担心,系统性能这时不会受到影响的。  
  15.    
  16. IO(现在的Linux版本块的大小为1kb)  
  17. • bi: 每秒读取的块数  
  18. • bo: 每秒写入的块数  
  19. 注意:随机磁盘读写的时候,这2个值越大(如超出1024k),能看到CPU在IO等待的值也会越大。  
  20.    
  21. system(系统)  
  22. • in: 每秒中断数,包括时钟中断。  
  23. • cs: 每秒上下文切换数。  
  24. 注意:上面2个值越大,会看到由内核消耗的CPU时间会越大。  
  25.    
  26. CPU(以百分比表示)  
  27. • us: 用户进程执行时间百分比(user time)  
  28. us的值比较高时,说明用户进程消耗的CPU时间多,但是如果长期超50%的使用,那么我们就该考虑优化程序算法或者进行加速。  
  29. • sy: 内核系统进程执行时间百分比(system time)  
  30. sy的值高时,说明系统内核消耗的CPU资源多,这并不是良性表现,我们应该检查原因。  
  31. • wa: IO等待时间百分比  
  32. wa的值高时,说明IO等待比较严重,这可能由于磁盘大量作随机访问造成,也有可能磁盘出现瓶颈(块操作)。  
  33. • id: 空闲时间百分比 

从 vmstat 中可以看到,CPU大部分的时间浪费在等待IO上面,可能是由于大量的磁盘随机访问或者磁盘的带宽所造成的,bi、bo 也都超过 1024k,应该是遇到了IO瓶颈。

2.2 iostat

下面再用更加专业的磁盘 IO 诊断工具来看下相关统计数据。

它的相关字段说明如下:

  1. rrqm/s:    每秒进行 merge 的读操作数目。即 delta(rmerge)/s  
  2. wrqm/s:    每秒进行 merge 的写操作数目。即 delta(wmerge)/s  
  3. r/s:       每秒完成的读 I/O 设备次数。即 delta(rio)/s  
  4. w/s:       每秒完成的写 I/O 设备次数。即 delta(wio)/s  
  5. rsec/s:    每秒读扇区数。即 delta(rsect)/s  
  6. wsec/s:    每秒写扇区数。即 delta(wsect)/s  
  7. rkB/s:     每秒读K字节数。是 rsect/s 的一半,因为每扇区大小为512字节。(需要计算)  
  8. wkB/s:     每秒写K字节数。是 wsect/s 的一半。(需要计算)  
  9. avgrq-sz:  平均每次设备I/O操作的数据大小 (扇区)。delta(rsect+wsect)/delta(rio+wio)  
  10. avgqu-sz:  平均I/O队列长度。即 delta(aveq)/s/1000 (因为aveq的单位为毫秒)。  
  11. await:     平均每次设备I/O操作的等待时间 (毫秒)。即 delta(ruse+wuse)/delta(rio+wio)  
  12. svctm:     平均每次设备I/O操作的服务时间 (毫秒)。即 delta(use)/delta(rio+wio)  
  13. %util:     一秒中有百分之多少的时间用于 I/O 操作,或者说一秒中有多少时间 I/O 队列是非空的。即 delta(use)/s/1000 (因为use的单位为毫秒) 

可以看到两块硬盘中的 sdb 的利用率已经 100%,存在严重的 IO 瓶颈,下一步我们就是要找出哪个进程在往这块硬盘读写数据。

2.3 iotop

根据 iotop 的结果,我们迅速的定位到是 flume 进程的问题,造成了大量的 IO wait。

但是在开头我已经说了,集群中的机器配置一样,部署的程序也都 rsync 过去的一模一样,难道是硬盘坏了?

这得找运维同学来查证了,最后的结论是:

Sdb为双盘raid1,使用raid卡为“LSI Logic / Symbios Logic SAS1068E”,无cache。近400的IOPS压力已经达到了硬件极限。而其它机器使用的raid卡是“LSI Logic / Symbios Logic MegaRAID SAS 1078”,有256MB cache,并未达到硬件瓶颈,解决办法是更换能提供更大IOPS的机器。

不过前面也说了,我们从软硬件两方面着手的目的就是看能否分别寻求代价最小的解决方案:

知道硬件的原因了,我们可以尝试把读写操作移到另一块盘,然后再看看效果:

3、最后的话:另辟蹊径

其实,除了用上述专业的工具定位这个问题外,我们可以直接利用进程状态来找到相关的进程。

我们知道进程有如下几种状态:

  1. PROCESS STATE CODES  
  2.  D uninterruptible sleep (usually IO)  
  3.  R running or runnable (on run queue)  
  4.  S interruptible sleep (waiting for an event to complete)  
  5.  T stopped, either by a job control signal or because it is being traced.  
  6.  W paging (not valid since the 2.6.xx kernel)  
  7.  X dead (should never be seen)  
  8.  Z defunct ("zombie") process, terminated but not reaped by its parent. 

其中状态为 D 的一般就是由于 wait IO 而造成所谓的”非中断睡眠“,我们可以从这点入手然后一步步的定位问题:

  1. for x in `seq 10`; do ps -eo state,pid,cmd | grep "^D"echo "----"; sleep 5; done  
  2.  D 248 [jbd2/dm-0-8]  
  3.  D 16528 bonnie++ -n 0 -u 0 -r 239 -s 478 -f -b -d /tmp  
  4.  ----  
  5.  D 22 [kdmflush]  
  6.  D 16528 bonnie++ -n 0 -u 0 -r 239 -s 478 -f -b -d /tmp  
  7.  ----  
  8. # 或者:  
  9. while true; do date; ps auxf | awk '{if($8=="D") print $0;}'; sleep 1; done  
  10.  Tue Aug 23 20:03:54 CLT 2011  
  11.  root       302  0.0  0.0      0     0 ?        D    May22   2:58  \_ [kdmflush]  
  12.  root       321  0.0  0.0      0     0 ?        D    May22   4:11  \_ [jbd2/dm-0-8]  
  13.  Tue Aug 23 20:03:55 CLT 2011  
  14.  Tue Aug 23 20:03:56 CLT 2011  
  15.    
  16. cat /proc/16528/io  
  17.  rchar: 48752567  
  18.  wchar: 549961789  
  19.  syscr: 5967  
  20.  syscw: 67138  
  21.  read_bytes: 49020928  
  22.  write_bytes: 549961728  
  23.  cancelled_write_bytes: 0  
  24.     
  25. lsof -p 16528  
  26.  COMMAND PID USER FD TYPE DEVICE SIZE/OFF NODE NAME  
  27.  bonnie++ 16528 root cwd DIR 252,0 4096 130597 /tmp  
  28.  <truncated>  
  29.  bonnie++ 16528 root 8u REG 252,0 501219328 131869 /tmp/Bonnie.16528  
  30.  bonnie++ 16528 root 9u REG 252,0 501219328 131869 /tmp/Bonnie.16528  
  31.  bonnie++ 16528 root 10u REG 252,0 501219328 131869 /tmp/Bonnie.16528  
  32.  bonnie++ 16528 root 11u REG 252,0 501219328 131869 /tmp/Bonnie.16528  
  33.  bonnie++ 16528 root 12u REG 252,0 501219328 131869 <strong>/tmp/Bonnie.16528</strong>  
  34.     
  35. df /tmp  
  36.  Filesystem 1K-blocks Used Available Use% Mounted on  
  37.  /dev/mapper/workstation-root 7667140 2628608 4653920 37% /  
  38.     
  39. fuser -vm /tmp  
  40.         USER        PID ACCESS COMMAND  
  41.  /tmp:  db2fenc1   1067 ....m db2fmp  
  42.         db2fenc1   1071 ....m db2fmp  
  43.         db2fenc1   2560 ....m db2fmp  
  44.         db2fenc1   5221 ....m db2fmp 

4、Refer:

[1] Troubleshooting High I/O Wait in Linux

      ——A walkthrough on how to find processes that are causing high I/O Wait on Linux Systems

http://bencane.com/2012/08/06/troubleshooting-high-io-wait-in-linux/

[2] 理解Linux系统负荷

http://www.ruanyifeng.com/blog/2011/07/linux_load_average_explained.html

[3] 24 iostat, vmstat and mpstat Examples for Linux Performance Monitoring

http://www.thegeekstuff.com/2011/07/iostat-vmstat-mpstat-examples/

[4] vmstat vmstat命令

http://man.linuxde.net/vmstat

[5] Linux vmstat命令实战详解

http://www.cnblogs.com/ggjucheng/archive/2012/01/05/2312625.html

[6] 影响Linux服务器性能的因素

http://www.rocklv.net/2004/news/article_284.html

[7] linux磁盘IO查看iostat,vmstat

http://blog.csdn.net/qiudakun/article/details/4699587

[8] What Process is using all of my disk IO

http://stackoverflow.com/questions/488826/what-process-is-using-all-of-my-disk-io

[9] Linux Wait IO Problem

http://www.chileoffshore.com/en/interesting-articles/126-linux-wait-io-problem

[10] Tracking Down High IO Wait in Linux

http://ostatic.com/blog/tracking-down-high-io-wait-in-linux

原文出自:http://my.oschina.net/leejun2005/blog/355915

【编辑推荐】

  1. 微软宣布.NET开发环境将开源 支持Mac OS X和Linux
  2. 领先SUSE两倍,红帽企业Linux再创世界纪录
  3. 系统之锹sysdig:Linux服务器监控和排障利器
  4. Systemd这个有争议的项目正在接管你身边的Linux发行版
  5. 如何在 Linux 上用 SQL 语句来查询 Apache 日志
【责任编辑:林师授 TEL:(010)68476606】

点赞 0
分享:
大家都在看
猜你喜欢

读 书 +更多

程序员教程(第2版)

本书按照人事部、信息产业部全国计算机技术与软件专业技术资格(水平)考试程序员考试大纲编写,是对2004版的修订版,内容包括计算机系统、...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊
× 学习达标赢Beats耳机