- 以下方法,不需要重装驱动,简单快捷。适用于Ubuntu系统下,之前已经安装过驱动,但驱动失效的问题。
- 否则需要重新安装驱动,参考Ubuntu下安装nvidia显卡驱动。
问题描述
当使用 nvidia-smi
命令时,出现以下错误:
1 | NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. |
估计问题出现原因是 ubuntu 系统更新了,但是 nvidia 驱动无法连接。
检查驱动是否存在
- 使用
nvcc -V
检查驱动和 cuda。

发现驱动是存在的。
查看已安装驱动的版本信息
1 | ls /usr/src | grep nvidia |

比如我这里的驱动版本为 nvidia-535.129.03。
dkms
dkms
是一个框架,用于构建和安装内核模块。它允许你在系统中安装多个内核模块版本,并在内核升级时自动重新编译这些模块。sudo apt-get install dkms
dkms install -m nvidia -v 535.129.03
出现以下错误:

说明这个版本的文件不存在,需要手动更新。
更新驱动
打开软件&更新,根据以下操作选择对应版本(535)。

重新 dkms

到这里为止,再次输入 nvidia-smi
就可以查看 GPU 使用状态。
本文作者:jujimeizuo
本文地址: https://blog.jujimeizuo.cn/2024/05/17/nvidia-smi-error/
本博客所有文章除特别声明外,均采用 CC BY-SA 3.0 协议。转载请注明出处!