「用Kubernetes架构gpu调度平台」 - Reddo

蓝耘科技是一家总部位于北京的公司,专注于GPU算力云服务,基于Kubernetes架构提供高性价比的GPU计算解决方案。其服务支持GPU加速工作负载,适合高校和科研单位,满足高性能计算需求。
GMI Cloud提供基于Kubernetes的GPU调度平台,专注于AI和AGI领域,支持动态管理AI工作负载,同时提供全面的工具与服务,满足高效计算需求。
Run:ai是一款专注于数据中心管理的软件,利用Kubernetes架构高效调度AI计算资源,支持GPU资源池化和共享,提升计算效率,其解决方案适用于云、边缘和本地数据中心环境。
NVIDIA GPU Operator是一个在Kubernetes环境中创建、配置和管理NVIDIA GPU的工具,旨在通过自动化简化GPU资源的管理,使用户能够高效使用GPU资源并减少配置错误。
Kubernetes通过设备插件在集群中有效管理GPU资源,支持深度学习和高性能计算的调度需求。该平台优化了计算任务的执行效率,方便开发者进行资源管理。
NVIDIA GPU Device Plugin为Kubernetes提供了GPU调度和管理功能,允许容器有效利用NVIDIA GPU资源,需安装特定驱动,支持高效计算。
NVIDIA Container Runtime是为NVIDIA GPU设计的容器运行时,支持Kubernetes的GPU资源管理,有效处理多GPU任务分配。该平台实现了与GPU驱动程序的交互,提升了容器化应用的性能。
Crane-Scheduler是一个由腾讯云团队开发的Kubernetes调度器,旨在优化资源利用率和负载均衡。它通过Prometheus收集资源使用数据,并支持用户自定义调度策略,适用于多种应用场景。
AI Training Solutions是OVHcloud旗下团队,专注于基于Kubernetes的AI培训解决方案。该服务支持多种框架,快速启动训练任务并优化GPU资源,确保数据安全合规。
CoreWeave是一家专注于GPU加速的云计算服务提供商,提供基于Kubernetes的高性能计算平台,支持AI和机器学习等计算密集型工作负载,大幅提升效率和降低成本。
Kueue是专为Kubernetes集群设计的云原生作业排队系统,支持批处理、HPC、AI/ML等应用,通过智能调度优化资源利用率,便于多租户共享资源。它与Kubernetes的标准组件协同工作优化作业执行。
Modal是一个无服务器平台,为GPU加速应用而设计,提供高效的推理引擎、作业调度及多GPU训练环境。支持生成式AI模型和大规模批处理,旨在降低开发成本并提升运行效率。即使未明言Kubernetes,但提到作业调度与GPU相关功能具一定关联。