k8s官网网!

k8s官网网

k8s官网

2024-06-03 16:09:26 来源:网络

资源隔离主要采用的是虚拟化的解决思路,目前NVIDIA有两种 GPU 虚拟化的解决方案:

目前社区的GPU调度方案:

1.Nvidia 贡献的调度方案,只支持按较粗粒度的调度,按GPU块数调度。

Nvidia GPU Device Plugin

2.阿里云服务团队贡献的 GPU 共享的调度方案,其目的在于解决用户共享 GPU 调度的需求Kubernetes GPU共享实践

gpushare-scheduler-extender

gpushare-device-plugin

相关资料: Kubernetes的共享GPU集群调度

前提条件:

实现思路:

依赖于Kubernetes的现有工作机制:

相关资料: AI 在 K8S 中的实践:云智天枢 AI 中台架构揭秘

实现思路:

相关资料: 基于 Kubernetes 的 GPU 类型调度实现

实现思路:

利用kubernetes现有的工作机制:

1. 通过CRD(CustomResourceDefinition)定义两种资源:ExtendedResource 和 ResourceClass

ExtendedResource 描述了一种扩展资源,比如 NVIDIA GPU;

ResourceClass 定义了容器选择哪种扩展资源,它的使用方式和 Kubernetes 中的 Extended Resource类似,用户可以直接在容器中指定,就像使用 CPU 和 Memory 一样。

Kubernetes GPU 共享技术调研

    猜你感兴趣: