症状识别:丢包、高延迟、请求超时,多见于链路异常或MTU不一致造成分片。常用排查命令:ping -c 100 -s 1400 对比不同包长;mtr 观察逐跳丢包情况;ss -s 查看连接状态。MTU检查与调整:若出现分片或应用超时,可调整MTU为9000(启用Jumbo Frame),命令示例:ip link set dev eth0 mtu 9000。路由与BGP:检查BGP邻居是否稳定,使用show ip bgp summary(在路由器上)或netstat -rn查看本地路由表,确认默认网关冗余。链路负载与限速:对10Gbps链路使用iftop/ntop进行流量分析,必要时启用QoS或流量整形避免突发拥塞。示例优化:将服务器网卡设置为2x10Gbps LACP,开启RSS与GRO/LRO以提升多核并发处理能力。
3. 系统与服务级故障(CPU、内存、磁盘、进程)
常见表现:CPU飙高、内存耗尽导致OOM、磁盘I/O延迟、关键进程崩溃(如nginx、mysqld)。监控指标:CPU load、iostat -x 1、vmstat 1、free -m,建议设置阈值告警(CPU>85%持续5min、I/O wait>30%)。磁盘与文件系统:使用smartctl检测硬盘健康,e.g. smartctl -a /dev/nvme0n1;对LVM或RAID常见重建问题需预先演练。进程恢复策略:使用systemd配置Restart=on-failure并配合Watchdog,必要时自动重启但记录崩溃堆栈便于分析。内存泄漏排查:使用pmap或smem查看单进程内存占用,使用valgrind或追踪工具在测试环境重现并修复。容量扩展:示例配置在高并发Web节点上采用2 x Intel Xeon Silver 4216,128GB RAM,NVMe 2TB,可支持数万并发连接并配合负载均衡水平扩展。