云服务器无法连接排查指南
技术指导 2025-04-06 05:47 275

一、基础网络检查

  1. 本地网络问题

    • 检查本地网络是否正常(尝试访问其他网站或服务)。

    • 使用 ping <公网IP> 测试网络连通性(若禁用了 ICMP 需忽略)。

    • 执行 tracert <公网IP>(Windows)或 traceroute <公网IP>(Linux)查看路由路径是否中断。

    • 尝试切换网络环境(如手机热点、不同运营商网络)。

  2. DNS 解析问题

    • 确认域名解析正确:nslookup <域名> 或 dig <域名>

    • 临时使用 IP 地址直连测试是否域名解析问题。


二、服务器状态检查

  1. 云平台控制台验证

    • 登录云服务商控制台(如 AWS、阿里云、腾讯云),检查实例状态是否为 运行中

    • 确认实例是否到期或欠费(部分厂商会直接关机或限制网络)。

    • 检查实例是否被误操作关机、重启或释放。

  2. 资源耗尽

    • CPU/内存过载:通过控制台监控查看历史负载,或尝试通过 VNC 登录检查。

    • 磁盘空间占满

      • 系统盘占满可能导致服务崩溃,通过控制台查看磁盘使用率。

      • 数据盘未挂载或占满可能影响应用运行。

    • 进程数超限:Linux 系统检查 ps -ef | wc -l,确认未达到最大进程数限制。


三、安全组与防火墙

  1. 云平台安全组规则

    • 检查入方向规则是否放行 SSH(22)RDP(3389) 或其他服务端口。

    • 确认源 IP 是否为当前客户端 IP(或 0.0.0.0/0 临时测试)。

    • 检查出方向规则是否允许响应流量(如 ICMP、TCP 回包)。

  2. 操作系统防火墙

    • Linux:检查 iptables/firewalld 规则,临时关闭测试:

      bash
      复制
      systemctl stop firewalld   # CentOS
      ufw disable               # Ubuntu
    • Windows:检查“Windows Defender 防火墙”是否阻止端口。


四、服务与端口状态

  1. SSH/RDP 服务是否运行

    • Linux:执行 systemctl status sshd 确认服务状态。

    • Windows:检查“Remote Desktop Services”是否启用。

  2. 端口监听状态

    • Linux:netstat -tunlp | grep <端口> 或 ss -tunlp

    • Windows:netstat -ano | findstr <端口>

    • 若端口未监听,检查服务配置(如 SSH 的 sshd_config)。

  3. 端口冲突

    • 检查是否有其他进程占用目标端口:lsof -i:<端口>(Linux)。


五、系统配置与日志

  1. 系统日志分析

    • Linux:/var/log/auth.log(SSH 登录日志)、/var/log/syslog

    • Windows:事件查看器 → Windows 日志 → 系统/安全。

    • 检查是否有 “Connection refused”“Timeout” 或 认证失败 记录。

  2. SSH 配置问题

    • 检查 /etc/ssh/sshd_config 是否限制 IP(AllowUsers/DenyUsers)。

    • 确认 PermitRootLogin 是否开启(若使用 root 登录)。

    • 重启 SSH 服务:systemctl restart sshd

  3. 密钥对或密码错误

    • 确认密钥对是否正确绑定实例(如 AWS 密钥对需通过控制台绑定)。

    • 检查密码是否被修改(如忘记密码可通过控制台重置)。


六、安全事件排查

  1. DDoS/CC 攻击

    • 检查云平台流量监控是否出现突发流量(如入方向带宽占满)。

    • 使用云厂商提供的 DDoS 防护服务或启用流量清洗。

  2. 暴力破解攻击

    • 检查日志中是否有大量失败登录尝试(如 grep 'Failed password' /var/log/auth.log)。

    • 解决方案:

      • 修改默认端口(如 SSH 改为非 22 端口)。

      • 启用 Fail2Ban 或云平台安全组自动封禁。

      • 限制源 IP 访问(如仅允许办公网络 IP)。

  3. 系统入侵与恶意程序

    • 检查异常进程:top(Linux)、任务管理器(Windows)。

    • 使用 chkrootkitrkhunter 扫描 Rootkit。

    • 检查计划任务(crontab -l)和启动项是否有可疑脚本。


七、云服务商问题

  1. 区域性故障

    • 登录云厂商状态页面(如 AWS Status、阿里云服务健康状态)。

    • 检查实例所在可用区是否发生网络或电力故障。

  2. 维护与升级

    • 确认实例是否因云平台维护计划被重启或迁移。


八、高级恢复方案

  1. 通过控制台 VNC 登录

    • 若 SSH/RDP 不可用,使用云平台提供的 VNC 功能直接登录实例。

    • 检查系统配置、服务状态及日志。

  2. 挂载系统盘排查

    • 将故障实例的系统盘挂载到其他正常实例,检查日志与配置文件。

  3. 备份与快照恢复

    • 从最近备份或快照恢复实例(优先选择未出问题的时间点)。

    • 重置实例为初始状态(仅适用于非关键数据场景)。


九、终极验证

  1. 创建新实例测试

    • 启动同配置新实例,测试网络和服务是否正常,排除硬件故障。

    • 对比新旧实例配置差异。


总结

按照 从外到内、从简到繁 的顺序排查:

  1. 本地网络 → 2. 云实例状态 → 3. 安全组/防火墙 → 4. 服务与端口 → 5. 系统日志 → 6. 安全事件 → 7. 服务商问题 → 8. 数据恢复。

提示:定期启用云监控告警、日志审计服务可提前预防多数问题。

Powered by ©IDCSMART