一、基础网络检查
-
本地网络问题
-
检查本地网络是否正常(尝试访问其他网站或服务)。
-
使用
ping <公网IP>
测试网络连通性(若禁用了 ICMP 需忽略)。 -
执行
tracert <公网IP>
(Windows)或traceroute <公网IP>
(Linux)查看路由路径是否中断。 -
尝试切换网络环境(如手机热点、不同运营商网络)。
-
-
DNS 解析问题
-
确认域名解析正确:
nslookup <域名>
或dig <域名>
。 -
临时使用 IP 地址直连测试是否域名解析问题。
-
二、服务器状态检查
-
云平台控制台验证
-
登录云服务商控制台(如 AWS、阿里云、腾讯云),检查实例状态是否为 运行中。
-
确认实例是否到期或欠费(部分厂商会直接关机或限制网络)。
-
检查实例是否被误操作关机、重启或释放。
-
-
资源耗尽
-
CPU/内存过载:通过控制台监控查看历史负载,或尝试通过 VNC 登录检查。
-
磁盘空间占满:
-
系统盘占满可能导致服务崩溃,通过控制台查看磁盘使用率。
-
数据盘未挂载或占满可能影响应用运行。
-
-
进程数超限:Linux 系统检查
ps -ef | wc -l
,确认未达到最大进程数限制。
-
三、安全组与防火墙
-
云平台安全组规则
-
检查入方向规则是否放行 SSH(22)、RDP(3389) 或其他服务端口。
-
确认源 IP 是否为当前客户端 IP(或 0.0.0.0/0 临时测试)。
-
检查出方向规则是否允许响应流量(如 ICMP、TCP 回包)。
-
-
操作系统防火墙
-
Linux:检查
iptables
/firewalld
规则,临时关闭测试:systemctl stop firewalld # CentOS ufw disable # Ubuntu
-
Windows:检查“Windows Defender 防火墙”是否阻止端口。
-
四、服务与端口状态
-
SSH/RDP 服务是否运行
-
Linux:执行
systemctl status sshd
确认服务状态。 -
Windows:检查“Remote Desktop Services”是否启用。
-
-
端口监听状态
-
Linux:
netstat -tunlp | grep <端口>
或ss -tunlp
。 -
Windows:
netstat -ano | findstr <端口>
。 -
若端口未监听,检查服务配置(如 SSH 的
sshd_config
)。
-
-
端口冲突
-
检查是否有其他进程占用目标端口:
lsof -i:<端口>
(Linux)。
-
五、系统配置与日志
-
系统日志分析
-
Linux:
/var/log/auth.log
(SSH 登录日志)、/var/log/syslog
。 -
Windows:事件查看器 → Windows 日志 → 系统/安全。
-
检查是否有 “Connection refused”、“Timeout” 或 认证失败 记录。
-
-
SSH 配置问题
-
检查
/etc/ssh/sshd_config
是否限制 IP(AllowUsers
/DenyUsers
)。 -
确认
PermitRootLogin
是否开启(若使用 root 登录)。 -
重启 SSH 服务:
systemctl restart sshd
。
-
-
密钥对或密码错误
-
确认密钥对是否正确绑定实例(如 AWS 密钥对需通过控制台绑定)。
-
检查密码是否被修改(如忘记密码可通过控制台重置)。
-
六、安全事件排查
-
DDoS/CC 攻击
-
检查云平台流量监控是否出现突发流量(如入方向带宽占满)。
-
使用云厂商提供的 DDoS 防护服务或启用流量清洗。
-
-
暴力破解攻击
-
检查日志中是否有大量失败登录尝试(如
grep 'Failed password' /var/log/auth.log
)。 -
解决方案:
-
修改默认端口(如 SSH 改为非 22 端口)。
-
启用 Fail2Ban 或云平台安全组自动封禁。
-
限制源 IP 访问(如仅允许办公网络 IP)。
-
-
-
系统入侵与恶意程序
-
检查异常进程:
top
(Linux)、任务管理器(Windows)。 -
使用
chkrootkit
、rkhunter
扫描 Rootkit。 -
检查计划任务(
crontab -l
)和启动项是否有可疑脚本。
-
七、云服务商问题
-
区域性故障
-
登录云厂商状态页面(如 AWS Status、阿里云服务健康状态)。
-
检查实例所在可用区是否发生网络或电力故障。
-
-
维护与升级
-
确认实例是否因云平台维护计划被重启或迁移。
-
八、高级恢复方案
-
通过控制台 VNC 登录
-
若 SSH/RDP 不可用,使用云平台提供的 VNC 功能直接登录实例。
-
检查系统配置、服务状态及日志。
-
-
挂载系统盘排查
-
将故障实例的系统盘挂载到其他正常实例,检查日志与配置文件。
-
-
备份与快照恢复
-
从最近备份或快照恢复实例(优先选择未出问题的时间点)。
-
重置实例为初始状态(仅适用于非关键数据场景)。
-
九、终极验证
-
创建新实例测试
-
启动同配置新实例,测试网络和服务是否正常,排除硬件故障。
-
对比新旧实例配置差异。
-
总结
按照 从外到内、从简到繁 的顺序排查:
-
本地网络 → 2. 云实例状态 → 3. 安全组/防火墙 → 4. 服务与端口 → 5. 系统日志 → 6. 安全事件 → 7. 服务商问题 → 8. 数据恢复。
提示:定期启用云监控告警、日志审计服务可提前预防多数问题。