深度学习人工智能 Dell R730 2U服务器实践3：安装英伟达上代专业AI训练Nvidia P4计算卡

ios开发者账号申请人工智能 2024-04-13 23 0

Dell R730是一款非常流行的服务器，2U的机箱可以放入两张显卡，这次先用一张英伟达上代专业级AI训练卡：P4卡做实验，本文记录安装过程。

简洁步骤：

打开机箱将P4显卡插在4号槽位关闭机箱安装驱动

详细步骤：

对于新手来说，步步为坑，有很多小细节需要注意。

了解硬件情况

首先了解到，R730号称可以装两块显卡打开机箱，发现pci扩展槽上有4567四个插槽。其中4号槽位是PCI-E3×16 ，其它三个槽位是PCI-E3×8 ，因此决定将P4插在4号槽。另外要注意的是4号槽对应CPU2 ，因此单CPU是不能用这个插槽的。

我的这台机器4号槽位还有个插槽保护部件插在上面，怎么拿下来也是尝试了一小会儿。

第一次装显卡，插卡的免螺丝固定部分，有个塑料件，安装前需要先用手扳上来，实在难住了我，多次尝试才找到发力点，话说Dell的免螺丝设计还是挺不错的。插好P4后，再把那个塑料固定件按下去固定显卡。

装好之后，在ESXi下，找PCI设备，将P4卡设置为直通。

这样p4卡的硬件部分就安装完成了！

安装系统ESXi+Ubuntu22.0

原系统是raid0，改成了raid1。

重新安装ESXi，然后再创建Ubuntu虚拟机，装Ubuntu22.0版本，确认将P4卡在ESXi里设为设为直通。

注意，设为直通后，就要设置“保留内存”选项，也就是设置了多少内存就要保留多少内存，否则虚拟机报错无法启动。参见：Dell R730 2U服务器实践2：VMWare ESXi安装-CSDN博客

P4驱动安装

安装驱动比较顺手了，先

从官网下载驱动再手动安装。

用nvidia-smi验证驱动是否安装好了，碰到了问题：

报错：couldn't communicate with the NVIDIA

使用从官网下驱动，手动安装的方式，结果安装后运行nvidia-smi报错：不能与nvidia驱动通信。

NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running.

换一种方法，

使用 ubuntu-drivers 安装驱动

执行：

sudo ubuntu-drivers devices # 查看可以装的驱动

sudo ubuntu-drivers autoinstall # 安装驱动

结果还是显示无法与nvidia驱动通信....

使用dkms安装驱动

网上建议用dkms安装驱动，执行：

sudo apt install dkms

sudo dkms install -m nvidia -v 525.147.05

这样由dkms安装驱动，非常简单方便。我记得这里的驱动需要从前面sudo ubuntu-drivers devices显示的驱动里面选。

安装驱动的时候提示重启之后需要密码验证。(我没看见验证啊)

问题没有解决。

apt install安装驱动

先看有哪些驱动

sudo nvidia-drivers device

vendor : NVIDIA Corporation model : GP104GL [Tesla P4] driver : nvidia-driver-390 - distro non-free driver : nvidia-driver-450-server - distro non-free driver : nvidia-driver-470 - distro non-free recommended driver : nvidia-driver-470-server - distro non-free driver : nvidia-driver-418-server - distro non-free driver : xserver-xorg-video-nouveau - distro free builtin

然后使用apt安装：sudo apt install nvidia-driver-470-server

apt 安装也还是不行。

skywalk@ub22:~$ sudo modprobe nvidia modprobe: ERROR: could not insert 'nvidia': Operation not permitted

ubuntu 已经说了推荐nvidia-driver-470，再来一次:

sudo apt install nvidia-driver-470

照旧。

其实上面四种安装驱动的方法都是可行的，但是为什么会报错呢? 原来是因为有个地方没有设置对！

设置关闭 UEFI 安全引导

看到这篇文章里ESXI8.0下直通NVIDIA Tesla P4显卡给Ubuntu22.04系统中Docker容器里的Jellyfin使用 - 哔哩哔哩 (bilibili.com)讲到“是否为此虚拟机启用 UEFI 安全引导” 这里要关掉。

关掉试试，再执行nvidia-smi，哇，成功拉！

安装pytorch和飞桨paddlepaddle

到各自的官网，通过官网指引进行pip或conda安装，AI训练环境搞定！

如果飞桨碰到“libstdc++.so.6: version 'GLIBCXX_3.4.30' not found”报错，使用

conda install -c conda-forge gcc=12.2.0 -y 解决问题。

总结

使用ESXi虚拟机在Ubuntu安装P4计算卡有几个注意的细节：

1 ESXi里虚拟机ubuntu的内存设置里需要勾选“保留内存”

2 在ESXi里设置P4计算卡为“直通”

3 ESXi里虚拟机ubuntu的启动设置里关闭“是否为此虚拟机启用 UEFI 安全引导”

其它地方就跟我们平时使用一样了。

前一篇：Dell R730 2U服务器实践2：VMWare ESXi安装-CSDN博客

评论可见，请评论后查看内容，谢谢！！！

您阅读本篇文章共花了：

深度学习人工智能 ai P4

本文由用户于 2024-04-13 发布在金钥匙，如有疑问，请联系我们。
本文链接：https://www.51969.com/post/18756410.html

金钥匙

深度学习人工智能 Dell R730 2U服务器实践3：安装英伟达上代专业AI训练Nvidia P4计算卡

android 智能手机人工智能 mistral llama cpm 使用搭载骁龙 8 Gen 3 的安卓手机运行 AI 大模型

java Spring boot结合easy excel实现低代码量的Excel导入导出

发表评论取消回复

金钥匙

深度学习 人工智能 Dell R730 2U服务器实践3：安装英伟达上代专业AI训练Nvidia P4计算卡

android 智能手机 人工智能 mistral llama cpm 使用搭载骁龙 8 Gen 3 的安卓手机运行 AI 大模型

java Spring boot结合easy excel实现低代码量的Excel导入导出

相关文章

发表评论取消回复

深度学习人工智能 Dell R730 2U服务器实践3：安装英伟达上代专业AI训练Nvidia P4计算卡

android 智能手机人工智能 mistral llama cpm 使用搭载骁龙 8 Gen 3 的安卓手机运行 AI 大模型