为模型训练做准备:CUDA环境配置流程

为模型训练做准备:CUDA环境配置流程

编程文章jaq1232025-08-03 14:14:204A+A-

“ 所有的事情都有一个开端,CUDA配置就是你AI的开端。”


在深度学习的世界里,模型训练的速度和效率往往决定了项目的成败。

CUDA,作为NVIDIA推出的并行计算平台和编程模型,正是加速这一过程的关键。

今天,我们就来聊聊如何为模型训练做好准备,详细解析CUDA环境的配置流程。

注:在此之前,我假设你有可以用作模型训练的NVIDIA显卡,且安装了驱动。


01

了解CUDA和cuDNN

CUDA是英伟达设计的并行计算平台和编程模型,正因为其强大的并行计算能力,才能够为模型训练提供足够的动力。

cuDNN是专门设计针对深度学习的GPU加速库,因此开发者可以轻松将模型部署到拥有英伟达显卡的设备上,并获得不错的性能提升。

其实对于我们开发者而言,这些工具只要安装即可,如何调用、使用,相应的机器学习框架已经进行了处理,例如TensorFlow、Pytorch


02

查看显卡型号和驱动版本

打开cmd控制台,输入:

nvidia-smi

其中两个参数最为重要:

  • Driver Version:驱动版本
  • CUDA Version:驱动对应的CUDA版本

比如我的驱动版本是536.67,相对应的CUDA版本是12.2,需要说明的是CUDA的版本是向下兼容的,只要低于或等于12.2都可安装


03

下载CUDA Toolkit

通过我们查看到的驱动版本和CUDA版本,我们来到英伟达的官网查看对应版本信息:https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html

找到对应的版本后,来到下载页面,下载我们的安装包:https://developer.nvidia.com/cuda-toolkit-archive

点击进入下载:

像截图中下载的是远程安装程序,打开后通过兼容性认证,按照顺序即可安装完成:

安装完成后,打开CMD控制台,输入命令查看是否安装成功:

nvcc --version

出现上述字样即表示安装成功,恭喜你,离AI又更近了一步。


04

下载cuDNN

注:下载cuDNN之前,记得需要注册一个账号,否则将无法进行下载。

我们进入官网下载页面:https://developer.nvidia.com/rdp/cudnn-archive


展开可以支持的cuDNN

下载完成后是一个压缩包,解压完成后将看到三个文件夹:

将三个文件夹include、lib、bin粘贴覆盖CUDA中的文件夹。

如果你与我一样,安装CUDA时是默认下一步,则路径应该和我一致:C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.2

为了检验cuDNN是否安装完成,打开目录:C:\Program Files\NVIDIA GPU Computing Toolkit\CUDA\v12.2\extras\demo_suite

打开CMD控制台,输入:

deviceQuery.exe

内容中Result=PASS即表示通过,cuDNN安装完成。

输入:

bandwidthTest.exe

内容中Result=PASS即表示通过,cuDNN安装完成。


05

框架测试

我这边下载了Pytorch,进入Pytorch网页:https://pytorch.org/

因为我们的CUDA版本是12.2,为了下载支持的版本只能用等于或低于12.2的,因此我选择了11.8,复制下方文本即可下载相对应的版本:

pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118

随便创建一个.py文件,让我们来测试一下是否可以进行pytorch的gpu加速

# -*- coding: utf-8 -*-
import torch


if __name__ == '__main__':
    print(torch.cuda.is_available())

如果你的结果与我一致是True,那么恭喜你,已经完成了AI模型训练的第一步,环境配置。

点击这里复制本文地址 以上内容由jaq123整理呈现,请务必在转载分享时注明本文地址!如对内容有疑问,请联系我们,谢谢!

苍茫编程网 © All Rights Reserved.  蜀ICP备2024111239号-21