nvidia-smi 无法加载驱动

  • 以下方法,不需要重装驱动,简单快捷。适用于Ubuntu系统下,之前已经安装过驱动,但驱动失效的问题。
  • 否则需要重新安装驱动,参考Ubuntu下安装nvidia显卡驱动

问题描述

当使用 nvidia-smi 命令时,出现以下错误:

1
2
NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. 
Make sure that the latest NVIDIA driver is installed and running.

估计问题出现原因是 ubuntu 系统更新了,但是 nvidia 驱动无法连接。

检查驱动是否存在

  • 使用 nvcc -V 检查驱动和 cuda。

发现驱动是存在的。

查看已安装驱动的版本信息

1
ls /usr/src | grep nvidia

比如我这里的驱动版本为 nvidia-535.129.03。

dkms

  • dkms 是一个框架,用于构建和安装内核模块。它允许你在系统中安装多个内核模块版本,并在内核升级时自动重新编译这些模块。
  • sudo apt-get install dkms
  • dkms install -m nvidia -v 535.129.03

出现以下错误:

说明这个版本的文件不存在,需要手动更新。

更新驱动

打开软件&更新,根据以下操作选择对应版本(535)。

重新 dkms

到这里为止,再次输入 nvidia-smi 就可以查看 GPU 使用状态。

本文作者:jujimeizuo
本文地址https://blog.jujimeizuo.cn/2024/05/17/nvidia-smi-error/
本博客所有文章除特别声明外,均采用 CC BY-SA 3.0 协议。转载请注明出处!