如何在GPU云服务上运行容器？-云主机测评网

摘要

在GPU云服务上运行容器的方法因云服务提供商的不同而有所差异。以下是基于阿里云和腾讯云的两种常见方法：阿里云GPU容器运行方法： 1. 使用cGPU技术： cGPU是阿里云基于内核虚拟GPU隔离的容器共享技术，允许多个容器共享一张GPU卡，从而提高GPU资源利用率并降低成本。安装cGPU组件：登录阿里云容器服务Ku…...

在GPU云服务上运行容器的方法因云服务提供商的不同而有所差异。以下是基于阿里云和腾讯云的两种常见方法：

如何在GPU云服务上运行容器？

阿里云GPU容器运行方法：

1. 使用cGPU技术：

cGPU是阿里云基于内核虚拟GPU隔离的容器共享技术，允许多个容器共享一张GPU卡，从而提高GPU资源利用率并降低成本。

安装cGPU组件：登录阿里云容器服务Kubernetes版控制台，进入集群管理页面，选择“应用”>“云原生AI套件（公测）”，然后点击“一键部署”。

开启GPU共享调度能力和显存隔离能力：在节点池配置中设置标签，开启相关功能。

创建容器时，通过设置环境变量指定显存分配，例如：

sudo docker run -d -t --gpus all --shm-size=1g --ulimit memlock=-1 --ulimit stack=67108864 --name gpu_test1 -v /mnt:/mnt -e ALIYUN_COM_GPU_MEM_CONTAINER=6 -e ALIYUN_COM_GPU_MEM_DEV=15 nvcr.io/nvidia/tensorflow:19.10-py3

此命令创建一个名为gpu_test1的容器，分配6 GiB显存。
2. 使用标准Kubernetes资源申请方式：
登录阿里云容器服务控制台，选择集群，创建无状态工作负载，并在YAML文件中声明GPU资源需求。例如，在resources部分声明申请的GPU显存资源为2 GiB。
示例YAML代码：

apiVersion: apps/v1 kind: Deployment metadata: name: cgpu-test spec: replicas: 3 selector: matchLabels: app: cgpu-test template: metadata: labels: app: cgpu-test spec: containers: name: cgpu-test image: registry.acs.intra./acs/gpushare-sample:tensorflow-1.5 command: ["python", "cgpu/main.py"] resources: limits: /gpu: 1 requests:

/gpu: 1

3. 配置NVIDIA驱动和CUDA库：

在容器中运行GPU应用时，需要将NVIDIA驱动和CUDA库文件指定到容器中。在阿里云上，可以通过hostPath将驱动文件路径指定为/var/lib/nvidia-docker/volumes/nvidia_driver/375.39。