为模型训练做准备:CUDA环境配置流程
“ 所有的事情都有一个开端,CUDA配置就是你AI的开端。”
在深度学习的世界里,模型训练的速度和效率往往决定了项目的成败。
而CUDA,作为NVIDIA推出的并行计算平台和编程模型,正是加速这一过程的关键。
今天,我们就来聊聊如何为模型训练做好准备,详细解析CUDA环境的配置流程。
注:在此之前,我假设你有可以用作模型训练的NVIDIA显卡,且安装了驱动。
01
了解CUDA和cuDNN
CUDA是英伟达设计的并行计算平台和编程模型,正因为其强大的并行计算能力,才能够为模型训练提供足够的动力。
而cuDNN是专门设计针对深度学习的GPU加速库,因此开发者可以轻松将模型部署到拥有英伟达显卡的设备上,并获得不错的性能提升。
其实对于我们开发者而言,这些工具只要安装即可,如何调用、使用,相应的机器学习框架已经进行了处理,例如TensorFlow、Pytorch。
02
查看显卡型号和驱动版本
打开cmd控制台,输入:
nvidia-smi
其中两个参数最为重要:
- Driver Version:驱动版本
- CUDA Version:驱动对应的CUDA版本
比如我的驱动版本是536.67,相对应的CUDA版本是12.2,需要说明的是CUDA的版本是向下兼容的,只要低于或等于12.2都可安装。
03
下载CUDA Toolkit
通过我们查看到的驱动版本和CUDA版本,我们来到英伟达的官网查看对应版本信息:https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html
找到对应的版本后,来到下载页面,下载我们的安装包:https://developer.nvidia.com/cuda-toolkit-archive
点击进入下载:
像截图中下载的是远程安装程序,打开后通过兼容性认证,按照顺序即可安装完成:
安装完成后,打开CMD控制台,输入命令查看是否安装成功:
nvcc --version
出现上述字样即表示安装成功,恭喜你,离AI又更近了一步。
04
下载cuDNN
注:下载cuDNN之前,记得需要注册一个账号,否则将无法进行下载。
我们进入官网下载页面:https://developer.nvidia.com/rdp/cudnn-archive
展开可以支持的cuDNN:
下载完成后是一个压缩包,解压完成后将看到三个文件夹:
将三个文件夹include、lib、bin粘贴覆盖CUDA中的文件夹。
如果你与我一样,安装CUDA时是默认下一步,则路径应该和我一致:C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.2
为了检验cuDNN是否安装完成,打开目录:C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.2\extras\demo_suite
打开CMD控制台,输入:
deviceQuery.exe
内容中Result=PASS即表示通过,cuDNN安装完成。
输入:
bandwidthTest.exe
内容中Result=PASS即表示通过,cuDNN安装完成。
05
框架测试
我这边下载了Pytorch,进入Pytorch网页:https://pytorch.org/
因为我们的CUDA版本是12.2,为了下载支持的版本只能用等于或低于12.2的,因此我选择了11.8,复制下方文本即可下载相对应的版本:
pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118
随便创建一个.py文件,让我们来测试一下是否可以进行pytorch的gpu加速:
# -*- coding: utf-8 -*-
import torch
if __name__ == '__main__':
print(torch.cuda.is_available())
如果你的结果与我一致是True,那么恭喜你,已经完成了AI模型训练的第一步,环境配置。