RTX 5090 深度学习环境显卡掉线排查记录
先交代下这套深度学习环境的硬件配置:
- 显卡:技嘉5090纯血版(国外背回来的)
- CPU:AMD 9950X
- 主板:华硕 X870E-PLUS WIFI7
- 固态:三星990pro 2TB
- 机械:西部数据紫盘 2TB
- 机箱:安钛克FLUX SE
- 电源:安钛克NE 1300金
- 风冷散热:九州风神 阿萨辛4
- 内存:美商海盗船 DDR5 5200 32G✖️2
最近在跑代码时,接连遇到了三次不同表现的桌面显示问题。起初我以为在 BIOS 里禁用核显就能解决,但实际测试下来发现并非如此。为了方便日后查阅,也希望能给遇到类似问题的朋友一些参考,这里把这三种情况及对应的解决思路记录下来。
情况一:直接掉盘,找不到 GPU 节点
这是比较棘手的一种情况。当时正在跑训练,中途桌面突然消失,机箱风扇维持高转速。通过终端 SSH 连进去后,输入 nvidia-smi 提示找不到显卡设备,表现为典型的 GPU 掉盘。
初步分析,这多半是在负载突变或者供电出现瞬时波动时,触发了主板或者电源的某种保护机制,导致 PCIe 设备被系统断开。针对这种硬件级别的保护掉线,目前最直接的办法只能是硬重启机器。
情况二:能识别显卡,但无信号输入且无桌面
这种情况表现为:开机后 nvidia-smi 能正常找到显卡并输出状态,但是显示器提示无信号输入,使用 ToDesk 远程连接时也显示没有桌面环境。
遇到这种状况,我的处理方式是彻底断电重置:关机,拔掉主机电源线,静置等待一分钟左右,然后再插上电源开机。通常这样操作一次就能恢复正常。推测可能是主板静电或某些电容的残余电荷干扰了显示输出,拔电静置可以帮助主板彻底放电。
情况三:远程有桌面,但本地显示器黑屏
第三种情况有些特殊:本地显示器依然毫无反应(无输入信号),但是通过 ToDesk 远程连接,居然可以正常看到并操作 Ubuntu 桌面。
经过摸索,这主要是 Ubuntu 下的显示服务器配置出现异常,或者显卡驱动与 Wayland 发生了冲突。可以在 ToDesk 里打开终端,尝试重置相关配置:
- 清理旧的 xorg 配置文件:
1
sudo rm /etc/X11/xorg.conf
- 重新生成 NVIDIA 的 xconfig:
1
sudo nvidia-xconfig
- 关闭 Wayland,强制系统使用 X11 协议。编辑 gdm3 的配置文件:找到里面被注释掉的
1
sudo nano /etc/gdm3/custom.conf
#WaylandEnable=false这一行,去掉前面的#号,变成WaylandEnable=false,然后保存退出。 - 重启系统:补充说明:重启的时候,建议给显示器换一个 DP 接口重新插拔一次,通常就能正常点亮了。
1
sudo reboot
总结与后续优化
一开始我猜测是核显和独显在抢占输出通道,所以在 BIOS 里把主板核显禁用了。但事实证明,即使禁用了核显,上述黑屏和掉线问题依然会不定期出现。
综合来看,我觉得 5090 这张卡的瞬态功耗和供电要求确实非常高,即便搭配了 1300W 的金牌电源,依然会在某些特定高负载工况下出现掉线。另外,这种情况我也会更多地考虑散热方面的影响,毕竟高功耗伴随着高发热。后续我打算加装机箱风扇、定期清理灰尘,并把机箱移动到更加通风的位置,因为 1300W 电源在理论上是不可能出现余量不足的。