RTX 5090 深度学习环境显卡掉线排查记录

先交代下这套深度学习环境的硬件配置:

  • 显卡:技嘉5090纯血版(国外背回来的)
  • CPU:AMD 9950X
  • 主板:华硕 X870E-PLUS WIFI7
  • 固态:三星990pro 2TB
  • 机械:西部数据紫盘 2TB
  • 机箱:安钛克FLUX SE
  • 电源:安钛克NE 1300金
  • 风冷散热:九州风神 阿萨辛4
  • 内存:美商海盗船 DDR5 5200 32G✖️2

最近在跑代码时,接连遇到了三次不同表现的桌面显示问题。起初我以为在 BIOS 里禁用核显就能解决,但实际测试下来发现并非如此。为了方便日后查阅,也希望能给遇到类似问题的朋友一些参考,这里把这三种情况及对应的解决思路记录下来。

情况一:直接掉盘,找不到 GPU 节点

这是比较棘手的一种情况。当时正在跑训练,中途桌面突然消失,机箱风扇维持高转速。通过终端 SSH 连进去后,输入 nvidia-smi 提示找不到显卡设备,表现为典型的 GPU 掉盘。

初步分析,这多半是在负载突变或者供电出现瞬时波动时,触发了主板或者电源的某种保护机制,导致 PCIe 设备被系统断开。针对这种硬件级别的保护掉线,目前最直接的办法只能是硬重启机器。

情况二:能识别显卡,但无信号输入且无桌面

这种情况表现为:开机后 nvidia-smi 能正常找到显卡并输出状态,但是显示器提示无信号输入,使用 ToDesk 远程连接时也显示没有桌面环境。

遇到这种状况,我的处理方式是彻底断电重置:关机,拔掉主机电源线,静置等待一分钟左右,然后再插上电源开机。通常这样操作一次就能恢复正常。推测可能是主板静电或某些电容的残余电荷干扰了显示输出,拔电静置可以帮助主板彻底放电。

情况三:远程有桌面,但本地显示器黑屏

第三种情况有些特殊:本地显示器依然毫无反应(无输入信号),但是通过 ToDesk 远程连接,居然可以正常看到并操作 Ubuntu 桌面。

经过摸索,这主要是 Ubuntu 下的显示服务器配置出现异常,或者显卡驱动与 Wayland 发生了冲突。可以在 ToDesk 里打开终端,尝试重置相关配置:

  1. 清理旧的 xorg 配置文件:
    1
    sudo rm /etc/X11/xorg.conf
  2. 重新生成 NVIDIA 的 xconfig:
    1
    sudo nvidia-xconfig
  3. 关闭 Wayland,强制系统使用 X11 协议。编辑 gdm3 的配置文件:
    1
    sudo nano /etc/gdm3/custom.conf
    找到里面被注释掉的 #WaylandEnable=false 这一行,去掉前面的 # 号,变成 WaylandEnable=false,然后保存退出。
  4. 重启系统:
    1
    sudo reboot
    补充说明:重启的时候,建议给显示器换一个 DP 接口重新插拔一次,通常就能正常点亮了。

总结与后续优化

一开始我猜测是核显和独显在抢占输出通道,所以在 BIOS 里把主板核显禁用了。但事实证明,即使禁用了核显,上述黑屏和掉线问题依然会不定期出现。

综合来看,我觉得 5090 这张卡的瞬态功耗和供电要求确实非常高,即便搭配了 1300W 的金牌电源,依然会在某些特定高负载工况下出现掉线。另外,这种情况我也会更多地考虑散热方面的影响,毕竟高功耗伴随着高发热。后续我打算加装机箱风扇、定期清理灰尘,并把机箱移动到更加通风的位置,因为 1300W 电源在理论上是不可能出现余量不足的。