admin管理员组

文章数量:1563235

阿里云服务器vgn6i配NVIDIA CUDA+cuDNN

目录

  • 阿里云服务器vgn6i配NVIDIA CUDA+cuDNN
  • 前言
  • 一、驱动安装
  • 二、安装CUDA
  • 三、cuDNN安装
  • 总结


前言

本文主要介绍阿里云服务器vgn6i的NVIDIA驱动的安装及CUDA的配置,本人使用的阿里云服务器配置为Tesla T4型号显卡,服务器系统为:Ubuntu-16.04 64-bit,所有操作内容以此为例


一、驱动安装

安装的参考目录以下几点:

  • 在vgn6i和vgn5i实例中安装GRID驱动(Linux)

安装Ubuntu 16.04 64-bit系统

进入控制台,进入自己的实例列表,在当前实例的操作菜单栏中,选择更多下的实例状态,点击停止,然后在磁盘和镜像中,选择切换操作系统,切记一定要选择阿里云提供的纯净的Ubuntu 16.04 64-bit的系统。市场的系统,会给你安装特别多的插件,容易出问题。
设置密码,安装完成以后,使用远程连接工具进行服务器的连接。

安装Nvidia Cuda驱动

1、查看是否存在blacklist-nouveau.conf文件。

ls /etc/modprobe.d/blacklist-nouveau.conf

2、如果文件存在,则跳过本步骤。如果文件不存在,则执行命令vim /etc/modprobe.d/blacklist-nouveau.conf创建文件,并在文件中添加以下内容禁用nouveau。

blacklist nouveau
blacklist lbm-nouveau
options nouveau modeset=0

3、生成kernel initramfs。

由于Ubuntu系统自带了kernel所以我们不需要进行安装
当然CentOS是需要自己安装对应版本的kernel才可以
这也是使用Ubuntu系统的优点

4.重启服务器

reboot

5、下载GRID驱动安装包

vgn5i GRID 驱动安装包:
wget http://nvidia-418.oss-cn-shenzhen.aliyuncs/NVIDIA-Linux-x86_64-418.70-grid.run

vgn6i GRID 驱动安装包:
wget http://grid-9-2.oss-cn-hangzhou.aliyuncs/NVIDIA-Linux-x86_64-430.63-grid.run

5、安装GRID驱动

vgn5i GRID 安装:
chmod +x NVIDIA-Linux-x86_64-418.70-grid.run
./NVIDIA-Linux-x86_64-418.70-grid.run

vgn6i GRID 安装:
chmod +x NVIDIA-Linux-x86_64-430.63-grid.run
./NVIDIA-Linux-x86_64-430.63-grid.run

6、测试驱动是否安装成功

nvidia-smi

如果返回以下GRID驱动信息,说明驱动安装成功。

接下来我们开始配置CUDA

二、安装CUDA

  • 首先执行命令nvidia-smi去查看一下我们所支持的CUDA_Version为10.1
  • 接下来去CUDA的历史版本寻找我们所需的对应CUDA版本,选择情况如下图所示,选择对应系统及系统版本,选择runfile格式,下载到本地后,我们将他拉到服务器中等待进一步的安装
  • 执行命令sudo apt-get install gcc g++ make安装其他需要的依赖工具
  • 执行命令sudo sh cuda_10.1.105_418.39_linux.run cuda文件名直接按table补全,避免输错,然后会出现很长的协议书,一直按到最后然后我们终端输入accept去进入到安装面板中来,注意到Driver是驱动,方向键上下移动到Driver,按下回车键选择不安装驱动,因为之前已经装了。最后方向键移动到Install,按下回车开始安装
  • 安装完成界面如下图(由于我们没有选择安装driver,因此会显示不完全安装,但是CUDA toolkit都已成功安装就可以了)

在以上安装过程中cuda被安装到的路径为/usr/local/cuda-10.1

接下来更改环境变量、创建动态链接库并创建链接文件

  • 声明环境变量
    执行命令:sudo vim ~/.bashrc
    在文件(在用户目录下)的尾部,输入内容如下:
    export PATH=/usr/local/cuda-10.1/bin${PATH:+:$PATH}} 
    export LD_LIBRARY_PATH=/usr/local/cuda-10.1/lib64${LD_LIBRARY_PATH:+:${LD_LIBRARY_PATH}}
    
  • 保存退出,并输入下面指令使环境变量立刻生效
    执行命令:source ~/.bashrc
  • 设置环境变量和动态链接库
    执行命令:sudo vim /etc/profile
    在打开的文件末尾加入:export PATH=/usr/local/cuda/bin:$PATH
  • 创建链接文件
    执行命令:sudo vim /etc/ld.so.conf.d/cuda.conf
    在打开的文件中添加该语句/usr/local/cuda/lib64
    保存退出,然后执行sudo ldconfig使链接立即生效
  • 最后检查CUDA是否安装成功
    执行命令:nvcc --version,如出现以下信息,则说明安装成功!

三、cuDNN安装

  • 先在NVIDIA官网注册用户名和密码,然后进入cuDNN下载页面,需要与CUDA10.1环境以及服务器系统版本适配,因此选择下载以下几项来安装

还是一样的道理,下载后将文件拉到服务器上开始如下操作

  • 首先解压缩,注意压缩包后缀,如zip格式使用unzip命令解压
    执行命令:unzip cudnn7.6.5 cuda10.1.zip
    再执行命令:tar -zxvf cudnn-10.1-linux-x64-v7.6.5.32.tgz

  • 依次执行以下命令,复制文件到cuda环境

    sudo cp cuda/include/cudnn.h /usr/local/cuda/include
    sudo cp cuda/lib64/libcudnn* /usr/local/cuda/lib64
    sudo chmod a+r /usr/local/cuda/include/cudnn.h /usr/local/cuda/lib64/libcudnn*
    
  • 安装deb包

    sudo dpkg -i libcudnn7_7.6.5.32-1+cuda10.1_amd64.deb
    sudo dpkg -i libcudnn7-dev_7.6.5.32-1+cuda10.1_amd64.deb
    sudo dpkg -i libcudnn7-doc_7.6.5.32-1+cuda10.1_amd64.deb
    
  • 最后使用NVIDIA官方自带Sample(mnist手写体数字识别数据集)测试是否安装成功

    cp -r /usr/src/cudnn_samples_v7/ ~
    cd ~/cudnn_samples_v7/mnistCUDNN
    make clean && make
    ./mnistCUDNN
    

如果显示Test passed!即测试通过!

总结

炼丹路漫漫 山高路远,看世界也找自己–Luofan

本文标签: 阿里服务器vgn6icuDNNCUDA