ESXI8安装16.5版本NVIDIA VGPU--基于Tesla M60
一直想尝试在VMware vSphere平台来跑NVIDIA VGPU,所以特地在闲鱼搞了张改装好散热的16G Tesla M60显卡(改装散热也不乐观,动不动就80°+++
),Tesla P4更为合适放到家用机箱。
由于NVIDIA VGPU 17版本后将不再对Tesla M60支持,所以vSphere平台只能安装16版本及之前了。当然如果你是在PVE这类KVM开源平台则可以vgpu_unlock项目进行解锁继续得到支持。官方推荐适用于VGPU虚拟化的显卡见这里
这次使用vSphere8.0版本来安装16.5版本的NVIDIA VGPU,VGPU相关设置需要在vCenter操作,所以还需要安装VCSA,并将ESXI加入到vCenter。ESXI8和VCSA的安装略过,相关安装镜像和VGPU驱动可在下方获取:
硬件配置
配置 | 型号 |
---|---|
ESXI版本 | ESXI 8.0U2-22380479 |
VCSA版本 | VCSA 8.0.2-22617221 |
主板 | 技嘉 Z370 HD3 大板 |
CPU | Intel(R) CC150 CPU @ 3.50GHz 8核16线程 |
内存 | 64G DDR4 |
显卡 | Tesla M60 |
NVIDIA VGPU驱动 | 535.161.05 |
资源下载
# ESXI 8.0U2镜像下载地址
https://yun.yangwenqing.com/ESXI_PVE/VMware/vSphere8.0/ESXi-8.0U2-22380479-USB-NVME.iso
# VCSA 8.0.2镜像下载地址
https://yun.yangwenqing.com/ESXI_PVE/VMware/vSphere8.0/VMware-VCSA-all-8.0.2-22617221.iso
# NVIDIA VGPU驱动535.161.05
https://yun.yangwenqing.com/ESXI_PVE/vGPU/NVIDIA/16.5/NVIDIA-GRID-vSphere-8.0-535.161.05-535.161.08-538.46.zip
NVIDIA VGPU安装
1)在ESXI界面开启SSH服务,并进入维护模式(把ESXI里运行的虚拟机关闭电源否则无法进入维护模式
)后面要通过SSH工具登录到ESXI后台安装驱动
2)将下载下来的NVIDIA VGPU驱动进行解压,把Host_Drivers
文件夹里的nvd-gpu-mgmt-daemon_535.161.05-0.0.0000_23230587.zip
和NVD-VGPU-800_535.161.05-1OEM.800.1.0.20613240_23233605.zip
并上传到ESXI的/tmp
路径
3)通过SSH工具登录到ESXI,安装NVIDIA VGPU驱动
# 安装 NVD-VGPU-800_535.161.05-1OEM.800.1.0.20613240_23233605.zip
esxcli software component apply -d /tmp/NVD-VGPU*.zip
# 安装 nvd-gpu-mgmt-daemon_535.161.05-0.0.0000_23230587.zip
esxcli software component apply -d /tmp/nvd-gpu-mgmt-daemon*.zip
# 安装完成后,执行重启
reboot
安装记录如下:
Last login: Sat Aug 17 23:47:48 on ttys001
july@JulysiMac ~ % ssh root@10.10.10.251
(root@10.10.10.251) Password:
The time and date of this login have been sent to the system logs.
WARNING:
All commands run on the ESXi shell are logged and may be included in
support bundles. Do not provide passwords directly on the command line.
Most tools can prompt for secrets or accept them from standard input.
VMware offers powerful and supported automation tools. Please
see https://developer.vmware.com for details.
The ESXi Shell can be disabled by an administrative user. See the
vSphere Security documentation for more information.
[root@ESXI8:~] ls /tmp
NVD-VGPU-800_535.161.05-1OEM.800.1.0.20613240_23233605.zip vmware-root
nvd-gpu-mgmt-daemon_535.161.05-0.0.0000_23230587.zip vmware-uid_0
[root@ESXI8:~] esxcli software component apply -d /tmp/NVD-VGPU*.zip
Installation Result
Message: Operation finished successfully.
Components Installed: NVD-VGPU-800_535.161.05-1OEM.800.1.0.20613240
Components Removed:
Components Skipped:
Reboot Required: false
DPU Results:
[root@ESXI8:~] esxcli software component apply -d /tmp/nvd-gpu-mgmt-daemon*.zip
Installation Result
Message: The update completed successfully, but the system needs to be rebooted for the changes to be effective.
Components Installed: nvd-gpu-mgmt-daemon_535.161.05-0.0.0000
Components Removed:
Components Skipped:
Reboot Required: true
DPU Results:
[root@ESXI8:~] reboot
[root@ESXI8:~] Connection to 10.10.10.251 closed by remote host.
Connection to 10.10.10.251 closed.
4) 重启后执行nvidia-smi
命令来验证驱动是否正常,输出类似如下信息:
[root@ESXI8:~] nvidia-smi
Sat Aug 17 16:14:41 2024
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.161.05 Driver Version: 535.161.05 CUDA Version: N/A |
|-----------------------------------------+----------------------+----------------------+
| GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC |
| Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. |
| | | MIG M. |
|=========================================+======================+======================|
| 0 Tesla M60 On | 00000000:03:00.0 Off | 0 |
| N/A 64C P8 26W / 150W | 25MiB / 7680MiB | 0% Default |
| | | N/A |
+-----------------------------------------+----------------------+----------------------+
| 1 Tesla M60 On | 00000000:04:00.0 Off | 0 |
| N/A 50C P8 25W / 150W | 25MiB / 7680MiB | 0% Default |
| | | N/A |
+-----------------------------------------+----------------------+----------------------+
+---------------------------------------------------------------------------------------+
| Processes: |
| GPU GI CI PID Type Process name GPU Memory |
| ID ID Usage |
|=======================================================================================|
| 0 N/A N/A 1050448 G Xorg 4MiB |
| 1 N/A N/A 1050467 G Xorg 4MiB |
+---------------------------------------------------------------------------------------+
5) 由于Tesla M60默认是开启ECC内存,A系列和B系列VGPU mdev 模式是不支持ECC数据校验完整性的,所以这里要做禁用
# nvidia-smi -q
==============NVSMI LOG==============
Timestamp : Sat Aug 17 17:50:26 2024
Driver Version : 535.161.05
Attached GPUs : 2
GPU 00000000:03:00.0
[...]
Ecc Mode
Current : Enabled
Pending : Enabled
[...]
# 关闭ECC内存,注意,启用或者关闭ECC都需要重启ESXI主机
nvidia-smi -e 0
# 重启
reboot
6)确认驱动正常没有问题后退出维护模式,并将ESXI接入到vCenter进行管理。
vCenter分配VGPU
1)VGPU相关设置都需要在vCenter进行,所以得把ESXI主机接入到vCenter。登录到vCenter将显卡和ESXI主机从默认的共享类型(VSGA)改为直接共享类型(SR-IOV)步骤:vCenter → ESXI主机 → 配置 → 图形 → 图形设备 → 编辑 → 直接共享 → 确定
步骤:vCenter → ESXI主机 → 配置 → 图形 → 主机图形 → 编辑 → 直接共享 → 确定
2) 然后就可以在虚拟机配置文件添加VGPU设备了
其中 NVIDIA GRID vGPU grid_m60-1b 是 mdev 的名字,grid_m60--显卡名,1--1G 显存,b 代表 vPC
关于最后一位字母,如下
A = Virtual Applications (vApps)适用于虚拟应用/共享桌面等场景
B = Virtual Desktops (vPC)-适用于拥有标准PC应用程序、浏览器和多媒体的虚拟桌面。常用于办公场景
Q = Virtual Workstations (vWS)-适用于专业级图形应用程序,如Al、深度学习和数据科学。性能最佳
3)安装Guest驱动,将NVIDIA VGPU驱动解压出来的Guest_Drivers文件夹里的驱动放到虚拟机安装。(Windows11为例)
VGPU驱动授权
NVIDIA VGPU并非免费产品,需要对VGPU驱动购买许可才能正常使用VGPU,这里我还是用fastapi-dls
项目来取得90天的试用许可。用腾讯轻量云部署了个fastapi-dls授权服务器(不保证哪天就停了,建议自行部署
)
fastapi-dls授权服务器:https://vgpu.yangwenqing.com
Window11启用VGPU授权
1)在浏览器访问fastapi-dls授权服务:https://vgpu.yangwenqing.com/-/client-token
会自动下载好授权文件
2)下载后放入C:\Program Files\NVIDIA Corporation\vGPU Licensing\ClientConfigToken\
这个目录下
3)重启NVIDIA Display Container Ls
服务,即可获得授权
也可以在cmd窗口使用nvidia-smi -q
命令查看授权情况
Microsoft Windows [版本 10.0.26100.1301]
(c) Microsoft Corporation。保留所有权利。
C:\Users\Administrator>nvidia-smi -q
==============NVSMI LOG==============
Timestamp : Sun Aug 18 13:46:51 2024
Driver Version : 538.33
CUDA Version : 12.2
Attached GPUs : 1
GPU 00000000:02:04.0
Product Name : GRID M60-8Q
Product Brand : NVIDIA RTX Virtual Workstation
...
Host VGPU Mode : N/A
vGPU Software Licensed Product
Product Name : NVIDIA RTX Virtual Workstation
License Status : Licensed (Expiry: 2024-11-16 3:59:27 GMT)
GPU Reset Status
如授权失败,需要检查电脑时间是否对得上授权服务器时间
总结
对于个人使用,更推荐在PVE平台部署NVIDIA VGPU,ESXi部署NVIDIA VGPU还得另外安装VCSA这样就需要更多的资源投入,对个人使用不太划算。最后借于此文404
元包邮价出售这张Tesla M60显卡(已出售)
太好了,正好需求这个驱动vGPU的Esxi8.0可用的驱动。
我也没装上驱动
exsi 8.0u2 exsi8.0u3 都是一样
[root@localhost:~] nvidia-smi
NVIDIA-SMI has failed because it couldn't communicate with the NVIDIA driver. Make sure that the latest NVIDIA driver is installed and running[root@localhost:~] lspci | grep NVIDIA
0000:03:00.0 3D controller: NVIDIA Corporation Tesla M60
0000:04:00.0 3D controller: NVIDIA Corporation Tesla M60
exsi 8.0u2 exsi8.0u3 都是一样的提示
试过535.161.05 的驱动
NVD-VGPU-800_535.161.05-1OEM.800.1.0.20613240_23233605
nvd-gpu-mgmt-daemon_535.161.05-0.0.0000_23230587
试过535.216.01的驱动
nvd-gpu-mgmt-daemon_535.216.01-0.0.0000_24299789
NVD-VGPU-800_535.216.01-1OEM.800.1.0.20613240_24299999
都一样
有点没方向了
已搞定
1.显卡有问题 一个核心是坏的
2.第二显卡要切换到图形模式 可在win下的英伟达控制面板里切换 ecc选项 也在一起
按您的说明安装了驱动,但是用nvidia-smi,提示如下,未找到任何设备。
[root@localhost:~] nvidia-smi
No devices were found
但我用lspci | grep NVIDIA命令,又能正常显示M60显卡。
[root@localhost:~] lspci | grep NVIDIA
0000:02:00.0 VGA compatible controller: NVIDIA Corporation GP106 [GeForce GTX 1060 5GB]
0000:02:00.1 Audio device: NVIDIA Corporation GP106 High Definition Audio Controller
0000:05:00.0 VGA compatible controller: NVIDIA Corporation Tesla M60
0000:06:00.0 VGA compatible controller: NVIDIA Corporation Tesla M60
请问一下这个是什么原因呀?
BIOS需要开SRIOV和Above 4G Decoding