在第四代nvlink中nv引入了一个新的组件nvlsm,即nvlink子网管理器。同时B系列也需要OFED驱动以加载ib相关内核模块,否则fabricmanager运行不起来。
所以在B系列的HGX机型中我们一共需要安装以下几个包:
DOCA-OFED(ib相关驱动)
GPU驱动
CUDA toolkit
nvlsm
nvidia-fabricmanager
1. DOCA_OFED驱动
基于ubuntu24.04的OFED驱动,如果是其他系统参考相应的选项:
wget https://www.mellanox.com/downloads/DOCA/DOCA_v3.2.0/host/doca-host_3.2.0-125000-25.10-ubuntu2404_amd64.deb
sudo dpkg -i doca-host_3.2.0-125000-25.10-ubuntu2404_amd64.deb
sudo apt-get update
sudo apt-get -y install doca-ofed
安装完成后reboot重启,使用ip a命令或ibstat检查ib卡是否被正常识别
2. 安装驱动及cuda
驱动及cuda的安装和以往版本流程一致,参考以下教程:
驱动安装:
http://docs.dhwark.xyz/web/#/626600400/230218979
cuda安装:
http://docs.dhwark.xyz/web/#/626600400/230218982
3. nvlsm及fabricmanager
导入nvidia官方仓库安装fbric和nvlsm(如果是其他版本参考更改url):
如果需要离线deb包安装请参考url中的链接下载:
https://developer.download.nvidia.cn/compute/cuda/repos/ubuntu2404/x86_64/
sudo apt install wget gnupg
wget https://developer.download.nvidia.cn/compute/cuda/repos/ubuntu2404/x86_64/cuda-ubuntu2404.pin
sudo mv cuda-ubuntu2404.pin /etc/apt/preferences.d/cuda-repository-pin-600
wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/3bf863cc.pub
sudo apt-key add 3bf863cc.pub
sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2404/x86_64/ /"
sudo apt update
安装与驱动对应的fabricmanager及nvlsm,此处以nvidia-fabricmanager-580为例(apt search可查看具体小版本号对应的包):

apt install nvlsm nvidia-fabricmanager-580
fm服务还需依赖安装以下两个包:

把ib_umad模块添加到默认load:
echo "ib_umad" >> /etc/modules-load.d/modules.conf
systemctl enable nvidia-fabricmanager
reboot 重启
检查fabricmanager服务是否正常启动:

此时gpu应当可以正常调用:

4. 已知问题处理
所有包成功安装后应该可以正常进行gpu_burn测试及cuda调用,如果cuda无法调用请参考:
https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html
中的2.4.1节开启nokaslr:
