B200 在ubuntu24.04驱动部署全流程


在第四代nvlink中nv引入了一个新的组件nvlsm,即nvlink子网管理器。同时B系列也需要OFED驱动以加载ib相关内核模块,否则fabricmanager运行不起来。所以在B系列的HGX机型中我们一共需要安装以下几个包:DOCA-OFED(ib相关驱动)GPU驱动CUDA toolkitn

【飞牛nas】nfs使用rdma(基于infiniband)


前置:1.保证ip a命令能够查看到ib相关的接口,如果不行先检查lspci是否识别到ib卡,然后按照第二步操作加载ib相关内核模块。2.配置IPoIB,可以使用nmtui快速配置基于飞牛os的nfs rdma实施:无需安装驱动,debian12默认加载了ib相关内核模块:modprobe svcr

Centos8.5 安装独立显卡驱动


安装基础依赖环境先更新centos vault的仓库源地址:参考:centos-vault | 镜像站使用帮助 | 清华大学开源软件镜像站 | Tsinghua Open Source Mirrorsed -e "s|^mirrorlist=|#mirrorlist=|g" \

nginx配置正向代理服务器


老规矩先上正菜:http://files.dhwark.xyz/nginx_proxy.tar.gz目录树形图:nginx.conf为正向代理的配置文件,如果docker部署需要修改可以使用-v参数把容器内的/usr/local/nginx/conf文件夹挂载出来。v0.0.6是ngx_http_p

让docker使用新的数据目录和迁移/var/lib/docker数据目录到新服务器


建议先把/var/lib/docker目录文件复制到新路径!停止 Docker 服务: 首先,停止 Docker 服务以确保没有正在进行的容器操作。sudo systemctl stop docker创建 Docker 配置文件: 创建一个 Docker 配置文件/etc/docker/daemon

使用shell脚本向普罗米修斯pushgateway推送自定义指标


Pushgateway是一个独立服务,它在HTTP REST API上接收Prometheus指标。 Pushgateway位于发送指标的应用程序和Prometheus服务器之间。Pushgateway接收指标,然后作为目标被抓取,以将指标提供给Prometheus服务器。Pushgateway本质

ansible roles部署consul三节点集群


此贴旨在分享使用ansible快速部署一个consul集群,不探讨架构及技术细节。仓库地址:https://github.com/dhwark/consul_cluster在hosts文件中按照格式填入ip地址修改roles\consul_cluster\files\consul_*\consul_

创建ingress资源报错Internal error occurred: failed calling webhook


[root@k8s-master01 gitlab]# kubectl apply -f 03-gitlab-ingress.yaml Error from server (InternalError): error when creating "03-gitlab-ingress.yam

使用阿里云镜像部署ingress-nginx-controller


目录概述helm介绍helm的主要概念chart包的目录结构helm 安装 ingress-nginx下载ingress-nginx的chart包修改 values.yaml 文件执行安装测试 ingress-nginx概述NGINX Ingress Controller 是使用 Kubernete