ESXI8安装16.5版本NVIDIA VGPU--基于Tesla M60

一直想尝试在VMware vSphere平台来跑NVIDIA VGPU,所以特地在闲鱼搞了张改装好散热的16G Tesla M60显卡(改装散热也不乐观,动不动就80°+++ ),Tesla P4更为合适放到家用机箱。
Tesla M60
由于NVIDIA VGPU 17版本后将不再对Tesla M60支持,所以vSphere平台只能安装16版本及之前了。当然如果你是在PVE这类KVM开源平台则可以vgpu_unlock项目进行解锁继续得到支持。官方推荐适用于VGPU虚拟化的显卡见这里
NVIDIA VGPU 17.0 不再支持的显卡
这次使用vSphere8.0版本来安装16.5版本的NVIDIA VGPU,VGPU相关设置需要在vCenter操作,所以还需要安装VCSA,并将ESXI加入到vCenter。ESXI8和VCSA的安装略过,相关安装镜像和VGPU驱动可在下方获取:

硬件配置

配置型号
ESXI版本ESXI 8.0U2-22380479
VCSA版本VCSA 8.0.2-22617221
主板技嘉 Z370 HD3 大板
CPUIntel(R) CC150 CPU @ 3.50GHz 8核16线程
内存64G DDR4
显卡Tesla M60
NVIDIA VGPU驱动535.161.05

ESXI 8.0U2-22380479
VCSA 8.0.2-22617221

资源下载

# ESXI 8.0U2镜像下载地址
https://yun.yangwenqing.com/ESXI_PVE/VMware/vSphere8.0/ESXi-8.0U2-22380479-USB-NVME.iso
# VCSA 8.0.2镜像下载地址
https://yun.yangwenqing.com/ESXI_PVE/VMware/vSphere8.0/VMware-VCSA-all-8.0.2-22617221.iso
# NVIDIA VGPU驱动535.161.05
https://yun.yangwenqing.com/ESXI_PVE/vGPU/NVIDIA/16.5/NVIDIA-GRID-vSphere-8.0-535.161.05-535.161.08-538.46.zip

NVIDIA VGPU安装

1)在ESXI界面开启SSH服务,并进入维护模式(把ESXI里运行的虚拟机关闭电源否则无法进入维护模式)后面要通过SSH工具登录到ESXI后台安装驱动
开启SSH服务,并进入维护模式
2)将下载下来的NVIDIA VGPU驱动进行解压,把Host_Drivers文件夹里的nvd-gpu-mgmt-daemon_535.161.05-0.0.0000_23230587.zipNVD-VGPU-800_535.161.05-1OEM.800.1.0.20613240_23233605.zip并上传到ESXI的/tmp路径
上传NVIDIA VGPU驱动
3)通过SSH工具登录到ESXI,安装NVIDIA VGPU驱动

# 安装 NVD-VGPU-800_535.161.05-1OEM.800.1.0.20613240_23233605.zip
esxcli software component apply -d /tmp/NVD-VGPU*.zip
# 安装 nvd-gpu-mgmt-daemon_535.161.05-0.0.0000_23230587.zip
esxcli software component apply -d /tmp/nvd-gpu-mgmt-daemon*.zip
# 安装完成后,执行重启
reboot

安装记录如下:

Last login: Sat Aug 17 23:47:48 on ttys001
july@JulysiMac ~ % ssh root@10.10.10.251
(root@10.10.10.251) Password:
The time and date of this login have been sent to the system logs.

WARNING:
   All commands run on the ESXi shell are logged and may be included in
   support bundles. Do not provide passwords directly on the command line.
   Most tools can prompt for secrets or accept them from standard input.

VMware offers powerful and supported automation tools. Please
see https://developer.vmware.com for details.

The ESXi Shell can be disabled by an administrative user. See the
vSphere Security documentation for more information.
[root@ESXI8:~] ls /tmp
NVD-VGPU-800_535.161.05-1OEM.800.1.0.20613240_23233605.zip  vmware-root
nvd-gpu-mgmt-daemon_535.161.05-0.0.0000_23230587.zip        vmware-uid_0
[root@ESXI8:~] esxcli software component apply -d /tmp/NVD-VGPU*.zip
Installation Result
   Message: Operation finished successfully.
   Components Installed: NVD-VGPU-800_535.161.05-1OEM.800.1.0.20613240
   Components Removed:
   Components Skipped:
   Reboot Required: false
   DPU Results:
[root@ESXI8:~] esxcli software component apply -d /tmp/nvd-gpu-mgmt-daemon*.zip
Installation Result
   Message: The update completed successfully, but the system needs to be rebooted for the changes to be effective.
   Components Installed: nvd-gpu-mgmt-daemon_535.161.05-0.0.0000
   Components Removed:
   Components Skipped:
   Reboot Required: true
   DPU Results:
[root@ESXI8:~] reboot
[root@ESXI8:~] Connection to 10.10.10.251 closed by remote host.
Connection to 10.10.10.251 closed.

4) 重启后执行nvidia-smi命令来验证驱动是否正常,输出类似如下信息:

[root@ESXI8:~] nvidia-smi
Sat Aug 17 16:14:41 2024
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.161.05             Driver Version: 535.161.05   CUDA Version: N/A      |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  Tesla M60                      On  | 00000000:03:00.0 Off |                    0 |
| N/A   64C    P8              26W / 150W |     25MiB /  7680MiB |      0%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+
|   1  Tesla M60                      On  | 00000000:04:00.0 Off |                    0 |
| N/A   50C    P8              25W / 150W |     25MiB /  7680MiB |      0%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+

+---------------------------------------------------------------------------------------+
| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|=======================================================================================|
|    0   N/A  N/A   1050448      G   Xorg                                          4MiB |
|    1   N/A  N/A   1050467      G   Xorg                                          4MiB |
+---------------------------------------------------------------------------------------+

5) 由于Tesla M60默认是开启ECC内存,A系列和B系列VGPU mdev 模式是不支持ECC数据校验完整性的,所以这里要做禁用

# nvidia-smi -q

==============NVSMI LOG==============

Timestamp                           : Sat Aug 17 17:50:26 2024
Driver Version                      : 535.161.05 

Attached GPUs                             : 2
GPU 00000000:03:00.0
[...]
    Ecc Mode
        Current                     : Enabled
        Pending                     : Enabled
[...]
# 关闭ECC内存,注意,启用或者关闭ECC都需要重启ESXI主机
nvidia-smi -e 0
# 重启
reboot

6)确认驱动正常没有问题后退出维护模式,并将ESXI接入到vCenter进行管理。

vCenter分配VGPU

1)VGPU相关设置都需要在vCenter进行,所以得把ESXI主机接入到vCenter。登录到vCenter将显卡和ESXI主机从默认的共享类型(VSGA)改为直接共享类型(SR-IOV)
步骤:vCenter → ESXI主机 → 配置 → 图形 → 图形设备 → 编辑 → 直接共享 → 确定
显卡设备开启直接共享类型1
显卡设备开启直接共享类型2
步骤:vCenter → ESXI主机 → 配置 → 图形 → 主机图形 → 编辑 → 直接共享 → 确定
主机图形开启直接共享类型1
主机图形开启直接共享类型2
2) 然后就可以在虚拟机配置文件添加VGPU设备了
添加VGPU设备


其中 NVIDIA GRID vGPU grid_m60-1b 是 mdev 的名字,grid_m60--显卡名,1--1G 显存,b 代表 vPC
关于最后一位字母,如下
A = Virtual Applications (vApps)适用于虚拟应用/共享桌面等场景
B = Virtual Desktops (vPC)-适用于拥有标准PC应用程序、浏览器和多媒体的虚拟桌面。常用于办公场景
Q = Virtual Workstations (vWS)-适用于专业级图形应用程序,如Al、深度学习和数据科学。性能最佳

3)安装Guest驱动,将NVIDIA VGPU驱动解压出来的Guest_Drivers文件夹里的驱动放到虚拟机安装。(Windows11为例)
Guest_Driver
安装Guest驱动

VGPU驱动授权

NVIDIA VGPU并非免费产品,需要对VGPU驱动购买许可才能正常使用VGPU,这里我还是用fastapi-dls项目来取得90天的试用许可。用腾讯轻量云部署了个fastapi-dls授权服务器(不保证哪天就停了,建议自行部署)
fastapi-dls授权服务器:https://vgpu.yangwenqing.com
fastapi-dls
Window11启用VGPU授权
1)在浏览器访问fastapi-dls授权服务:https://vgpu.yangwenqing.com/-/client-token会自动下载好授权文件
获取授权文件
2)下载后放入C:\Program Files\NVIDIA Corporation\vGPU Licensing\ClientConfigToken\这个目录下
授权文件放到指定位置
3)重启NVIDIA Display Container Ls服务,即可获得授权
NVIDIA Display Container Ls
也可以在cmd窗口使用nvidia-smi -q命令查看授权情况

Microsoft Windows [版本 10.0.26100.1301]
(c) Microsoft Corporation。保留所有权利。

C:\Users\Administrator>nvidia-smi -q

==============NVSMI LOG==============

Timestamp                                 : Sun Aug 18 13:46:51 2024
Driver Version                            : 538.33
CUDA Version                              : 12.2

Attached GPUs                             : 1
GPU 00000000:02:04.0
    Product Name                          : GRID M60-8Q
    Product Brand                         : NVIDIA RTX Virtual Workstation
...
        Host VGPU Mode                    : N/A
    vGPU Software Licensed Product
        Product Name                      : NVIDIA RTX Virtual Workstation
        License Status                    : Licensed (Expiry: 2024-11-16 3:59:27 GMT)
    GPU Reset Status

如授权失败,需要检查电脑时间是否对得上授权服务器时间
VGPU获得授权

总结

对于个人使用,更推荐在PVE平台部署NVIDIA VGPU,ESXi部署NVIDIA VGPU还得另外安装VCSA这样就需要更多的资源投入,对个人使用不太划算。最后借于此文404元包邮价出售这张Tesla M60显卡(已出售)
寻找有缘人

Last modification:September 15th, 2024 at 12:33 am
If you think my article is useful to you, please feel free to appreciate