用Kubernetes架构gpu调度平台」 - Reddo

蓝耘科技 - 专注于GPU算力云服务
蓝耘科技 - 专注于GPU算力云服务专注于GPU算力云服务

蓝耘科技是一家总部位于北京的公司,专注于GPU算力云服务,基于Kubernetes架构提供高性价比的GPU计算解决方案。其服务支持GPU加速工作负载,适合高校和科研单位,满足高性能计算需求。

GMI Cloud - 高性能GPU云解决方案
GMI Cloud - 高性能GPU云解决方案高性能GPU云解决方案

GMI Cloud提供基于KubernetesGPU调度平台,专注于AIAGI领域,支持动态管理AI工作负载,同时提供全面的工具与服务,满足高效计算需求。

Runai - AI优化与调度
Runai - AI优化与调度AI优化与调度

Run:ai是一款专注于数据中心管理的软件,利用Kubernetes架构高效调度AI计算资源,支持GPU资源池化和共享,提升计算效率,其解决方案适用于云、边缘和本地数据中心环境。

NVIDIA GPU Operator - 自动化管理Kubernetes中的NVIDIA GPU资源
NVIDIA GPU Operator - 自动化管理Kubernetes中的NVIDIA GPU资源自动化管理Kubernetes中的NVIDIA GPU资源

NVIDIA GPU Operator是一个在Kubernetes环境中创建、配置和管理NVIDIA GPU的工具,旨在通过自动化简化GPU资源的管理,使用户能够高效使用GPU资源并减少配置错误。

Kubernetes GPU调度
Kubernetes GPU调度

Kubernetes通过设备插件在集群中有效管理GPU资源,支持深度学习高性能计算的调度需求。该平台优化了计算任务的执行效率,方便开发者进行资源管理

NVIDIA GPU Device Plugin
NVIDIA GPU Device Plugin

NVIDIA GPU Device PluginKubernetes提供了GPU调度和管理功能,允许容器有效利用NVIDIA GPU资源,需安装特定驱动,支持高效计算。

NVIDIA Container Runtime
NVIDIA Container Runtime

NVIDIA Container Runtime是为NVIDIA GPU设计的容器运行时,支持Kubernetes的GPU资源管理,有效处理多GPU任务分配。该平台实现了与GPU驱动程序的交互,提升了容器化应用的性能。

gocrane/crane-scheduler
gocrane/crane-scheduler

Crane-Scheduler是一个由腾讯云团队开发的Kubernetes调度器,旨在优化资源利用率和负载均衡。它通过Prometheus收集资源使用数据,并支持用户自定义调度策略,适用于多种应用场景。

AI Training Solutions - 助力企业数字化转型,提升AI训练效率。
AI Training Solutions - 助力企业数字化转型,提升AI训练效率。助力企业数字化转型,提升AI训练效率。

AI Training Solutions是OVHcloud旗下团队,专注于基于KubernetesAI培训解决方案。该服务支持多种框架,快速启动训练任务并优化GPU资源,确保数据安全合规。

CoreWeave - AI超算提供商,助力创新
CoreWeave - AI超算提供商,助力创新AI超算提供商,助力创新

CoreWeave是一家专注于GPU加速云计算服务提供商,提供基于Kubernetes的高性能计算平台,支持AI和机器学习等计算密集型工作负载,大幅提升效率和降低成本。

Kueue - Kubernetes原生作业队列系统
Kueue - Kubernetes原生作业队列系统Kubernetes原生作业队列系统

Kueue是专为Kubernetes集群设计的云原生作业排队系统,支持批处理、HPC、AI/ML等应用,通过智能调度优化资源利用率,便于多租户共享资源。它与Kubernetes的标准组件协同工作优化作业执行。

Modal - 无服务器云基础设施,专为AI和数据应用而生
Modal - 无服务器云基础设施,专为AI和数据应用而生无服务器云基础设施,专为AI和数据应用而生

Modal是一个无服务器平台,为GPU加速应用而设计,提供高效的推理引擎作业调度多GPU训练环境。支持生成式AI模型和大规模批处理,旨在降低开发成本并提升运行效率。即使未明言Kubernetes,但提到作业调度与GPU相关功能具一定关联。