祸害阿里云宕机3小时的IO HANG究竟是什么?
csdh11 2025-05-16 12:36 2 浏览
本文来自微信公号“CSDN”(ID:CSDNnews),作者 | 王知无, 责编| 郭 芮。
2019年3月3日凌晨,微博炸锅,有网友反映说阿里云疑似出现宕机,华北很多互联网公司受到暴击伤害,APP、网站全部瘫痪,我自己的朋友圈和微信群里也有好友反馈,刚刚从被窝被叫起来去修Bug,结果发现服务器登不上去了......
凌晨2点37分,阿里云官方回应称:华北2地域可用区C部分ECS服务器等实例出现IO HANG,经紧急排查处理后逐步恢复,此外将根据协议尽快赔偿。并已经全面排查其他地域及可用区,未发现此类情况。
IO HANG
那么问题来了,IO HANG是个什么鬼?简单的说,就是服务器磁盘读写过慢,导致线程和进程挂起。大量读写线程/进程挂起导致服务器宕机......
阿里云有大量的类似RDS、HybridDB数据库,支持海量数据在线事务(OLTP)和在线分析(OLAP),需要大量的IO读写,而Linux的IO性能将直接影响SQL的执行速度,严重情况下将导致服务器卡死和宕机。
如何监控自己服务器的IO情况呢?本文将带大家详细了解这些常用的命令。
如何监控自己服务器的IO情况?
常用的命令包括:top,iostat和iotop。那么他们都有什么区别,以及如何使用呢?我们一一分解。
我本机安装的是CentOS-7的虚拟机,内核信息为:
top命令
top命令提供了实时的对系统处理器的状态监视。它将显示系统中CPU最"敏感"的任务列表,该命令可以按CPU使用、内存使用和执行时间对任务进行排序,而且该命令的很多特性都可以通过交互式命令。
在Linux下,输入`top` :
Tasks、Cpus、Mem和Swap分别代表了进程信息、CPU信息和内存信息。各个列表示的指标意义如下 :
PID进程id
USER进程所有者用户名
PR 优先级
NI nice值
VIRT进程使用的虚拟内存总量
RES进程使用的未被换出的物理内存大小
SHR共享内存大小
S 进程状态S=睡眠T=跟踪R=运行Z=僵尸进程D=不可中断的睡眠进程
CPUcpu时间统计
MEM 物理内存占比
COMMAND命令行命令名
top常用的交互式命令使用格式:
top [-] [d] [p] [q] [c] [C] [S] [s] [n]
参数说明:
d:指定每两次屏幕信息刷新之间的时间间隔,当然用户可以使用s交互命令来改变之;
p:通过指定监控进程ID来仅仅监控某个进程的状态;
q:该选项将使top没有任何延迟的进行刷新。如果调用程序有超级用户权限,那么top将以尽可能高的优先级运行;
S:指定累计模式;
s:使top命令在安全模式中运行,这将去除交互命令所带来的潜在危险;
i:使top不显示任何闲置或者僵死进程;
c:显示整个命令行而不只是显示命令名。
通过top命令,我们即可查到当前服务器的进程占用CPU和内存情况。
iostat命令
iostat主要用于监控系统设备的IO负载情况,iostat首次运行时显示自系统启动开始的各项统计信息,之后运行iostat将显示自上次运行该命令以后的统计信息。用户可以通过指定统计的次数和时间来获得所需的统计信息。
基本使用:
$iostat -d -k 2
参数说明:
-d:显示设备(磁盘)使用状态;
-k:某些使用block为单位的列强制使用Kilobytes为单位;
2:数据显示每隔2秒刷新一次。
如果提示没有iostat命令需要使用yum安装,安装命令如下:
`yum install sysstat`
参数解释如下:
tps:该设备每秒的传输次数,一次传输意思是“一次I/O请求”,多个逻辑请求可能会被合并为“一次I/O请求”;
kB_read/s:每秒从设备(drive expressed)读取的数据量;kB_wrtn/s:每秒向设备(drive expressed)写入的数据量;
kB_read:读取的总数据量;
kB_wrtn:写入的总数量数据量,这些单位都为Kilobytes。
上面的例子中,我们可以看到磁盘sda以及它的各个分区的统计数据,当时瞬时统计的磁盘总TPS是1.88,下面是各个分区的TPS(因为是瞬间值,所以总TPS并不严格等于各个分区TPS的总和)。
在实际业务中,我们经常使用的命令是:
iostat -xdm
例如:iostat -xdm 2,2代表2秒钟刷新一次。
我们可以看到,%util这个参数即代表磁盘繁忙程度。100%表示磁盘繁忙, 0%表示磁盘空闲。但是我们需要注意,磁盘繁忙程度并不意味着磁盘读写速度大小。
iostat是系统级别的监控指令,iostat给我们的展示结果揭示了我们当前服务器磁盘的繁忙程度,虽然有一定的指导意义,但是不能精确到进程级别,这时候我们就需要iotop了。
iotop命令
我们上文讲到top命令,顾名思义,iotop代表io版本的top命令,使用起来简单粗暴,直接在命令行敲下:iotop。
iotop命令可以按进程统计IO状况,我们可以指导当前系统哪些进程在占用IO,百分比是多少,占用IO的进程是在读,还是在写,读写量是多少等信息。然后我们可以定位到具体的进程,查看进程详情。
同样个iotop命令有一个很像的命令叫做pidstat,参数很多。
例如:`pidstat -d` :
我们同样可以看到每个进程的读写情况,然后定位到具体的线程去查看问题。
总结
在生产实践中,实时监控我们的服务器IO情况至关重要,尤其是数据库所在的服务器,它直接关系到我们的程序的读写速度、SQL的执行情况等。
服务器IO的情况是我们选择服务器的重要考虑因素之一。IO变差,轻则写入服务读写响应缓慢,重则导致大量进程长时间挂起,数据库拥堵卡死,服务器严重卡顿,甚至宕机。
作者:王知无,阿里巴巴高级大数据开发工程师,先后在京东,阿里等大型互联网公司从事大数据平台、实时计算和离线计算中间件和业务平台开发。自媒体人,业余讲师,希望为更多的互联网开发人员提供最新和最热的大数据方向的技术动态,技术前沿研究。
相关推荐
- 完美解决华硕主板机箱前置面板连接音箱无声音问题
-
#精品长文创作季#最近新组装了一台电脑主机,听歌时发现,音箱音频输入线插入主板自带的音频输出端口LINEOUT声音正常。但当将音箱音频输入线插入机箱自带的音频输出端口却没有声音。...
- Java 监控直播流rtsp协议转rtmp、hls、httpflv协议返回浏览器
-
Java监控直播流rtsp协议转rtmp、hls、httpflv协议返回浏览器...
- 编译安装OpenCV全攻略,附本地源码包
-
本文以Ubuntu(适用于18,20,22版本,其他的未进行测试)为例,介绍了编译安装OpenCV的最佳实践。其他平台比如windows,只需要参考本文的思路做稍微调整即可。一、为什么需要编译安装Op...
- 音视频录制+RTMP直播推拉流
-
音视频录制:1,录音通过条件编译识别pc或者mac://条件编译技术识别pc或者mac#ifdefQ_OS_WIN#defineFMT_NAME"dshow"...
- Python Socket.IO 简介
-
Socket.IO是一种传输协议,支持客户端与服务器之间基于事件的实时双向通信。客户端通常但不总是web浏览器,一般情况下,客户端是采用js编写的,当然,也可以用python、Java等。...
- MyCat系列二--配置文件之server.xml
-
MyCat系列二--配置文件之server.xml从【安装与基本使用】一文中,可以看到MyCat运行,需要进行一些配置文件的相关配置,本文将重点介绍配置文件server.xml的基本元素信息,尽量了解...
- 3分钟搞懂Socket.IO:接口调试技巧
-
在数字化协作需求井喷的今天,即时通讯、协同文档、MMO游戏等场景对实时交互提出了严苛要求。传统HTTP协议"请求-响应"的离散式通信机制已难以满足需求,这正是Socket.IO这类实时...
- 「云原生」Containerd ctr,crictl 和 nerdctl 命令介绍与实战操作
-
一、概述作为接替Docker运行时的Containerd在早在Kubernetes1.7时就能直接与Kubelet集成使用,只是大部分时候我们因熟悉Docker,在部署集群时采用了默认的dockers...
- 搜狗开源srpc:自研高性能通用RPC框架
-
今年7月底,搜狗公司开源了内部的工业级C++服务器引擎Workflow,一路收获业内许多认可和关注。9月15日,作为Workflow最重要的生态项目——srpc,一个基于其打造的轻量级RPC框架,也在...
- socket.io 权限认证
-
socket.io是一款流行的WebSocket库,提供了实时双向通信的能力。它支持多种身份验证方式,可用于保护某些敏感信息。接下来,我们将介绍如何使用socket.io权限认证1.安装依...
- Linux高性能服务器设计
-
C10K和C10M计算机领域的很多技术都是需求推动的,上世纪90年代,由于互联网的飞速发展,网络服务器无法支撑快速增长的用户规模。1999年,DanKegel提出了著名的C10问题:一台服务器上同时...
- 19K 标星!开源局域网文件传输神器,AirDrop 跨平台替代品!
-
传统文件传输方式(如USB、蓝牙、邮件)要么速度慢,要么操作繁琐,而AirDrop仅限苹果生态。如果你还在为手机和电脑之间传文件来回折腾?还在装各种臃肿的客户端、扫码连Wi-Fi、用数据线拖来...
- WebRTC 入门教程:搭建WebRTC信令服务器
-
前言我们在学习WebRTC时,首先要把实验环境搭建好,这样我们就可以在上面做各种实验了。对于WebRTC来说,它有一整套规范,如怎样使用它的接口、使用SDP进行媒体协商、通过ICE收集地址并进...
- 在 Go 中使用 Websockets 和 Socket.IO - 教程
-
注意-本教程是使用Go1.9版和googollee/go-socket.io编写的Websockets是我觉得有趣的东西,因为它们为我们提供了应用程序之间通信的替代选项,而不是标准的R...
- 2021 年 Node.js 开发人员学习路线图
-
Node.js自发布以来,已成为业界重要破局者之一。Uber、Medium、PayPal和沃尔玛等大型企业,纷纷将技术栈转向Node.js。Node.js支持开发功能强大的应用,例如实时追踪...
- 一周热门
- 最近发表
- 标签列表
-
- mydisktest_v298 (34)
- document.appendchild (35)
- 头像打包下载 (61)
- acmecadconverter_8.52绿色版 (39)
- word文档批量处理大师破解版 (36)
- server2016安装密钥 (33)
- mysql 昨天的日期 (37)
- parsevideo (33)
- 个人网站源码 (37)
- centos7.4下载 (33)
- mysql 查询今天的数据 (34)
- intouch2014r2sp1永久授权 (36)
- 先锋影音源资2019 (35)
- jdk1.8.0_191下载 (33)
- axure9注册码 (33)
- pts/1 (33)
- spire.pdf 破解版 (35)
- shiro jwt (35)
- sklearn中文手册pdf (35)
- itextsharp使用手册 (33)
- 凯立德2012夏季版懒人包 (34)
- 冒险岛代码查询器 (34)
- 128*128png图片 (34)
- jdk1.8.0_131下载 (34)
- dos 删除目录下所有子目录及文件 (36)