Linux系统安装和CUDA配置

不同Linux系统的安装与CUDA配置,有一定区别。

Centos 7.6的安装与CUDA的配置

系统的安装

基本的安装也比较简单,也没啥问题。用rufus烧制一个U盘启动系统,然后在电脑上安装即可。建议完整安装,免去后面不必要的麻烦。

CUDA安装

  • CUDA下载。 如上图所示,在Linux下执行wget http://developer.download.nvidia.com/compute/cuda/10.1/Prod/local_installers/cuda_10.1.243_418.87.00_linux.run即可下载.run文件
  • 安装流程。
    CUDA驱动包中集成了显卡驱动,因此我就没必要先下载和安装NVIDIA显卡驱动了。先不要急着执行sudo sh cuda_10.1.243_418.87.00_linux.run,原因有两个:其一,如果你现在处于图形界面,在终端执行该命令的话会导致安装NVIDIA显卡驱动失败,因为安装显卡驱动需要关闭X server;其二,由于系统自带的nouveauNVIDIA驱动是相互冲的。以上两个原因都会导致你的驱动安装失败。
  • 实际安装
    因此安装CUDA之前,需要关闭X server和屏蔽nouveau驱动。

    • 关闭X server。快捷键Ctrl+Alt+F2进入无图形界面终端,首先登陆用户,然后执行sudo systemctl stop gdm.service来关闭X server
    • 屏蔽nouveau驱动。新建文件/etc/modprobe.d/blacklist.conf并写入
      1
      2
      blacklist nouveau
      options nouveau modeset=0

    并重建,执行sudo dracut --force。然后重启系统,执行lsmod | grep nouveau,如果没有任何输出则表明屏蔽成功。

    • 安装CUDA(包括NVIDIA显卡驱动)。执行sudo sh cuda_10.1.243_418.87.00_linux.run,基本不会出错。安装完成以后,执行sudo systemctl start gdm.service启动X server。最后设置环境变量,向~/.bashrc文件中添加下面两行并执行source ~/.bashrc即可:
      1
      2
      export PATH=$PATH:/usr/local/cuda-10.1/bin
      export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-10.1/lib64

Scientific Linux 7.6的安装与CUDA的配置

系统的安装

Scientific Linux是重新编译的Red Hat Enterprise Linux,与Centos相似,看到有些计算平台用的此系统,因此自己也尝试安装配置了一下,特此记录一下。

 首先是操作系统的安装,此处不再过多讲解,因为此系统基本与Centos的安装类似。值得注意点是默认的源更新和下载软件十分慢,此处应该将其改为中国科学技术大学的源(下载sl-ustc.repo),命令如下:

1
2
3
4
sudo cp sl-ustc.repo /etc/yum.repos.d/repos.repo
sudo yum makecache
sudo yum update -y
sudo yum install kernel-devel -y

CUDA的安装

屏蔽nouveau驱动

 由于nouveau与NVIDIA的显卡驱动不兼容,因此必须屏蔽掉nouveau驱动,先通过Ctrl+Alt+F2进入命令模式并登录用户,将该驱动添加到黑名单:

1
sudo vi /etc/modprobe.d/blacklist.conf

此处blacklist.conf不存在,因此会新建空文件,在里面输入如下字段:

1
2
blacklist nouveau
options nouveau modeset=0

然后通过dracut工具重建一个initramfs镜像:

1
sudo dracut --force

重启系统,接着查看nouveau驱动是否屏蔽掉:

1
lsmod | grep nouveau

如果没有输出,则表明屏蔽成功。

安装CUDA

 安装CUDA前需要关闭X服务,如下:

1
systemctl stop gdm.service

然后不要急着安装CUDA,首先通过df -h查看一下你系统的/tmp分区大小,我的为1.9G,然而单CUDA驱动源文件就2.5G,因此此时安装必然会报错显示/tmp空间不足。我们可以通过重新挂载分区来临时更改一下/tmp分区的大小,这里我改成了6G,相关命令如下:

1
sudo mount -o remount,size=6G /tmp/

到这里,一切准备就绪,现在可以安装CUDA了,命令如下:

1
2
cd ~/Downloads
sudo sh cuda_10.1.168_418.67_linux.run

顺利安装,中间没有报错。最后配置一下环境变量,在~/.bashrc文件最下面添加两行:

1
2
export PATH=$PATH:/usr/local/cuda-10.1/bin
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/cuda-10.1/lib64

最后终端执行source ~/.bashrc就可以了。

完成

 安装和配置完成,可以通过输入nvidia-smi看看你的驱动是否安装正常。