顺带接有偿部署,有需要点击链接闲鱼与我联系

顺带接有偿部署,有需要点击链接闲鱼与我联系

顺带接有偿部署,有需要点击链接闲鱼与我联系

ESXI8安装16.5版本NVIDIA VGPU--基于Tesla M60

一直想尝试在VMware vSphere平台来跑NVIDIA VGPU,所以特地在闲鱼搞了张改装好散热的16G Tesla M60显卡(改装散热也不乐观,动不动就80°+++ ),Tesla P4更为合适放到家用机箱。
Tesla M60
由于NVIDIA VGPU 17版本后将不再对Tesla M60支持,所以vSphere平台只能安装16版本及之前了。当然如果你是在PVE这类KVM开源平台则可以vgpu_unlock项目进行解锁继续得到支持。官方推荐适用于VGPU虚拟化的显卡见这里
NVIDIA VGPU 17.0 不再支持的显卡
这次使用vSphere8.0版本来安装16.5版本的NVIDIA VGPU,VGPU相关设置需要在vCenter操作,所以还需要安装VCSA,并将ESXI加入到vCenter。ESXI8和VCSA的安装略过,相关安装镜像和VGPU驱动可在下方获取:

硬件配置

配置型号
ESXI版本ESXI 8.0U2-22380479
VCSA版本VCSA 8.0.2-22617221
主板技嘉 Z370 HD3 大板
CPUIntel(R) CC150 CPU @ 3.50GHz 8核16线程
内存64G DDR4
显卡Tesla M60
NVIDIA VGPU驱动535.161.05

ESXI 8.0U2-22380479
VCSA 8.0.2-22617221

资源下载

小飞机网盘

# ESXI 8.0U2镜像下载地址
https://share.feijipan.com/s/yiF6ELBI
# VCSA 8.0.2镜像下载地址(需解压)
https://share.feijipan.com/s/VJF6ESBb
# NVIDIA VGPU驱动535.161.05(需解压)
https://share.feijipan.com/s/UxF6EImp
# 更多NVIDIA VGPU驱动可以从这里获取
https://share.feijipan.com/s/NNF5ivRP

小提示:

A5000/A6000显卡默认是显示模式的,如果要使用vGPU功能,需要先切换为无显示模式才能使用vGPU。
切换模式需要使用NVIDIA的displaymodeselector工具,该工具只支持在Window和linux平台使用,ESXI目前是没办法直接用的。如果你是ESXI平台,可以将显卡拆下来放到Win/Linux物理机又或者将显卡直通到Win/Linux的虚拟机里切换好在来安装vGPU。

工具下载

# displaymodeselector工具 Windows版本
https://share.feijipan.com/s/fqFt9mRH
# displaymodeselector工具 Linux版本
https://share.feijipan.com/s/AFFt9s8c

displaymodeselector工具切换教学(Window为例)

在CMD窗口,执行一下命令:

.\displaymodeselector.exe --gpumode

然后根据提示关闭就行,关闭后就可以进行vGPU的安装。

NVIDIA VGPU安装

1)在ESXI界面开启SSH服务,并进入维护模式(把ESXI里运行的虚拟机关闭电源否则无法进入维护模式)后面要通过SSH工具登录到ESXI后台安装驱动
开启SSH服务,并进入维护模式
2)将下载下来的NVIDIA VGPU驱动进行解压,把Host_Drivers文件夹里的nvd-gpu-mgmt-daemon_535.161.05-0.0.0000_23230587.zipNVD-VGPU-800_535.161.05-1OEM.800.1.0.20613240_23233605.zip并上传到ESXI的/tmp路径
上传NVIDIA VGPU驱动
3)通过SSH工具登录到ESXI,安装NVIDIA VGPU驱动

# 安装 NVD-VGPU-800_535.161.05-1OEM.800.1.0.20613240_23233605.zip
esxcli software component apply -d /tmp/NVD-VGPU*.zip
# 安装 nvd-gpu-mgmt-daemon_535.161.05-0.0.0000_23230587.zip
esxcli software component apply -d /tmp/nvd-gpu-mgmt-daemon*.zip
# 安装完成后,执行重启
reboot

安装记录如下:

Last login: Sat Aug 17 23:47:48 on ttys001
july@JulysiMac ~ % ssh root@10.10.10.251
(root@10.10.10.251) Password:
The time and date of this login have been sent to the system logs.

WARNING:
   All commands run on the ESXi shell are logged and may be included in
   support bundles. Do not provide passwords directly on the command line.
   Most tools can prompt for secrets or accept them from standard input.

VMware offers powerful and supported automation tools. Please
see https://developer.vmware.com for details.

The ESXi Shell can be disabled by an administrative user. See the
vSphere Security documentation for more information.
[root@ESXI8:~] ls /tmp
NVD-VGPU-800_535.161.05-1OEM.800.1.0.20613240_23233605.zip  vmware-root
nvd-gpu-mgmt-daemon_535.161.05-0.0.0000_23230587.zip        vmware-uid_0
[root@ESXI8:~] esxcli software component apply -d /tmp/NVD-VGPU*.zip
Installation Result
   Message: Operation finished successfully.
   Components Installed: NVD-VGPU-800_535.161.05-1OEM.800.1.0.20613240
   Components Removed:
   Components Skipped:
   Reboot Required: false
   DPU Results:
[root@ESXI8:~] esxcli software component apply -d /tmp/nvd-gpu-mgmt-daemon*.zip
Installation Result
   Message: The update completed successfully, but the system needs to be rebooted for the changes to be effective.
   Components Installed: nvd-gpu-mgmt-daemon_535.161.05-0.0.0000
   Components Removed:
   Components Skipped:
   Reboot Required: true
   DPU Results:
[root@ESXI8:~] reboot
[root@ESXI8:~] Connection to 10.10.10.251 closed by remote host.
Connection to 10.10.10.251 closed.

4) 重启后执行nvidia-smi命令来验证驱动是否正常,输出类似如下信息:

[root@ESXI8:~] nvidia-smi
Sat Aug 17 16:14:41 2024
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.161.05             Driver Version: 535.161.05   CUDA Version: N/A      |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  Tesla M60                      On  | 00000000:03:00.0 Off |                    0 |
| N/A   64C    P8              26W / 150W |     25MiB /  7680MiB |      0%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+
|   1  Tesla M60                      On  | 00000000:04:00.0 Off |                    0 |
| N/A   50C    P8              25W / 150W |     25MiB /  7680MiB |      0%      Default |
|                                         |                      |                  N/A |
+-----------------------------------------+----------------------+----------------------+

+---------------------------------------------------------------------------------------+
| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|=======================================================================================|
|    0   N/A  N/A   1050448      G   Xorg                                          4MiB |
|    1   N/A  N/A   1050467      G   Xorg                                          4MiB |
+---------------------------------------------------------------------------------------+

5) 由于Tesla M60默认是开启ECC内存,A系列和B系列VGPU mdev 模式是不支持ECC数据校验完整性的,所以这里要做禁用

# nvidia-smi -q

==============NVSMI LOG==============

Timestamp                           : Sat Aug 17 17:50:26 2024
Driver Version                      : 535.161.05 

Attached GPUs                             : 2
GPU 00000000:03:00.0
[...]
    Ecc Mode
        Current                     : Enabled
        Pending                     : Enabled
[...]
# 关闭ECC内存,注意,启用或者关闭ECC都需要重启ESXI主机
nvidia-smi -e 0
# 重启
reboot

6)确认驱动正常没有问题后退出维护模式,并将ESXI接入到vCenter进行管理。

vCenter分配VGPU

1)VGPU相关设置都需要在vCenter进行,所以得把ESXI主机接入到vCenter。登录到vCenter将显卡和ESXI主机从默认的共享类型(VSGA)改为直接共享类型(SR-IOV)
步骤:vCenter → ESXI主机 → 配置 → 图形 → 图形设备 → 编辑 → 直接共享 → 确定
显卡设备开启直接共享类型1
显卡设备开启直接共享类型2
步骤:vCenter → ESXI主机 → 配置 → 图形 → 主机图形 → 编辑 → 直接共享 → 确定
主机图形开启直接共享类型1
主机图形开启直接共享类型2
2) 然后就可以在虚拟机配置文件添加VGPU设备了
添加VGPU设备


其中 NVIDIA GRID vGPU grid_m60-1b 是 mdev 的名字,grid_m60--显卡名,1--1G 显存,b 代表 vPC
关于最后一位字母,如下
A = Virtual Applications (vApps)适用于虚拟应用/共享桌面等场景
B = Virtual Desktops (vPC)-适用于拥有标准PC应用程序、浏览器和多媒体的虚拟桌面。常用于办公场景
Q = Virtual Workstations (vWS)-适用于专业级图形应用程序,如Al、深度学习和数据科学。性能最佳

3)安装Guest驱动,将NVIDIA VGPU驱动解压出来的Guest_Drivers文件夹里的驱动放到虚拟机安装。(Windows11为例)
Guest_Driver
安装Guest驱动

VGPU驱动授权

NVIDIA VGPU并非免费产品,需要对VGPU驱动购买许可才能正常使用VGPU,这里我用fastapi-dls项目来取得90天的试用许可。你可以在内网或者外网部署好Docker环境,然后搭建fastapi-dls授权服务,我这里提供一个ESXI虚拟机还原包,该虚拟机已部署好docker和fastapi-dls授权服务通过内网进行授权即可。

# fastapi-dls授权服务还原包(需要解压,再上传到ESXI进行还原虚拟机)
https://share.feijipan.com/s/S2FtxGsS

fastapi-dls授权搭建


1)将fastapi-dls授权服务还原包下载进行解压,然后在ESXI创建虚拟机导入

2)选项要将虚拟机存放在哪个存储池

3)选择网络

4)等待还原成功,就开机

虚拟机信息:

NVIDIA VGPU 驱动授权服务器(90天授权期,服务器需要一直开启才能自动续期)
系统:Debian12
默认IP:172.16.120.243 网关:172.16.120.254
登录LXC账号:root
登录LXC密码:123123


5)输入账号和密码登录进虚拟机,把IP改为自己内网的IP。

# 查看网卡信息和IP
ip -c a
# 修改网络
nano /etc/network/interfaces


6)把网卡名、IP、网关修改为自己内网网段。然后保存退出即可(nano命令保存方法:Ctrl +X 输入“Y” 按下回车 保存)。

7)创建fastapi-dls授权服务,创建好后就可以通过浏览器访问你的授权服务了。
授权服务器地址:https://172.16.120.243/-/

# 修改好网络后需要重载网络才生效
systemctl restart networking
# 创建授权服务容器,注意下边的IP(172.16.120.243)改为自己的刚刚修改的IP
docker run --restart always -d -e DLS_URL=172.16.120.243 -e DLS_PORT=443 -p 443:443 makedie/fastapi-dls

fastapi-dls


Window11启用VGPU授权
1)在浏览器访问fastapi-dls授权服务:https://172.16.120.243/-/client-token会自动下载好授权文件
获取授权文件
2)下载后放入C:\Program Files\NVIDIA Corporation\vGPU Licensing\ClientConfigToken\这个目录下
授权文件放到指定位置
3)重启NVIDIA Display Container Ls服务,即可获得授权
NVIDIA Display Container Ls
也可以在cmd窗口使用nvidia-smi -q命令查看授权情况

Microsoft Windows [版本 10.0.26100.1301]
(c) Microsoft Corporation。保留所有权利。

C:\Users\Administrator>nvidia-smi -q

==============NVSMI LOG==============

Timestamp                                 : Sun Aug 18 13:46:51 2024
Driver Version                            : 538.33
CUDA Version                              : 12.2

Attached GPUs                             : 1
GPU 00000000:02:04.0
    Product Name                          : GRID M60-8Q
    Product Brand                         : NVIDIA RTX Virtual Workstation
...
        Host VGPU Mode                    : N/A
    vGPU Software Licensed Product
        Product Name                      : NVIDIA RTX Virtual Workstation
        License Status                    : Licensed (Expiry: 2024-11-16 3:59:27 GMT)
    GPU Reset Status

如授权失败,需要检查电脑时间是否对得上授权服务器时间
VGPU获得授权

总结

对于个人使用,更推荐在PVE平台部署NVIDIA VGPU,ESXi部署NVIDIA VGPU还得另外安装VCSA这样就需要更多的资源投入,对个人使用不太划算。最后借于此文404元包邮价出售这张Tesla M60显卡(已出售)
寻找有缘人

最后修改:2025 年 03 月 09 日
如果觉得我的文章对你有用,请随意赞赏