一键训练大模型及部署GPU共享推理服务_AI算力

产品展示

PRODUCT

一键训练大模型及部署GPU共享推理服务

2018-09-19 15:44:14

浏览次数：次

返回列表

通过创建ACK集群Pro版，使用云原生AI套件提交模型微调训练任务与部署GPU共享推理服务。支持快速创建Kubernetes集群，白屏配置任务数据共享存储和下载，并通过命令行工具Arena快速提交模型训练任务、部署推理服务。使用云原生AI套件可以让模型训练和推理提效，提高GPU资源利用率。

方案预估：体验本方案预计费用约为12～16元（假设您配置ACK集群、云原生AI套件和NAS实例时选择本文指导的规格资源，且资源运行时间不超过1小时。实际情况可能会因您操作过程中使用的资源规格和流量差异，而导致费用有所变化，请以控制台显示的实际报价以及最终账单为准）

方案介绍

一键训练大模型及部署GPU共享推理服务

通过创建ACK集群Pro版，您可以为集群挂载NAS实例作为集群的共享存储卷，用于存放模型训练数据。在集群中部署云原生AI套件后，您可以基于其能力提交Bloom模型训练任务进行模型训练，并通过GPU显存共享调度的能力，将多个推理服务部署在同一块GPU卡上以提高GPU的利用率。

应用场景

持续优化异构资源效率

对云上各种异构计算资源（如CPU、GPU、NPU、VPU、FPGA）、存储（OSS、NAS、CPFS、HDFS）、网络（TCP、RDMA）资源，云原生AI套件支持对其进行抽象，统一管理、运维和分配，通过弹性和软硬协同优化，持续提升资源利用率。

高效运行AI等异构工作负载

云原生AI套件兼容Tensorflow、Pytorch、Horovod、Spark、Flink等主流开源或者用户自有的各种计算引擎和运行时，统一运行各类异构工作负载，统一管理作业生命周期，统一调度任务工作流，保证任务规模和性能。云原生AI套件一方面不断优化运行任务的性能、效率和成本，另一方面持续改善开发运维体验和工程效率。

: 电话

: 客服

: 联系

: 搜索

网站首页

产品展示

解决方案

新闻中心

参考资料

关于我们

一键训练大模型及部署GPU共享推理服务