智算服务PAI-灵骏_AI算力_机器学习PAI_大数据-阿里云

备案控制台

< 查看全部产品

公测中

智算服务 PAI-灵骏

智算服务 PAI-灵骏是面向大规模深度学习及融合智算的PaaS产品，支持公共云Serverless版、单租版以及混合云形态，基于软硬件一体优化技术，构建高性能异构算力底座，提供AI工程化全流程能力，具备高性能、高效率、高利用率等核心优势，满足高性能计算等领域需求，在大模型训练、自动驾驶、基础科研、金融等领域广泛应用。

产品文档产品定价

产品优势

Serverless

公共云 Serverless 形态，快速拉起AI计算任务，自动化运维

高性能网络

800Gbps低延迟网络支持GPU直连，无拥塞技术大幅提升训练速度

高性能存储

CPFS全并行存储架构，单集群最高2TB/s的吞吐和3000万的IOPS

高加速比

自研分布式训练加速引擎，训练的高度优化，充分释放算力

产品形态

公共云 Serverless 版

Serverless 平台产品，一键快速拉起AI计算任务，复杂异构系统自动运维，轻松管理。与云上的计算、存储、网络等各类产品无缝衔接。

我是链接文案

公共云单租版

云上建立客户专属集群，单个客户独享一套AI平台和运维服务。便捷运营管理，云产品互通，使用云上标准的计算、存储、网络服务。

我是链接文案

飞天混合云版

支持混合云的标准架构，提供完整的计算、网络、存储、账号（ASCM），标准的SDK/OpenAPI，物理资源独立部署，支持服务商基于客户业务场景构建业务平台。

我是链接文案

产品功能

新一代AI智算平台，满足大规模AI算力需求

企业级AI开发平台提供AI开发、训练等AI工程化全流程产品能力，支持多种AI角色管理，算力资源管理运维的企业级AI平台。

一站式开通使用算力集群、高性能存储、容器服务、AI 开发平台的一键式开通和全生命周期管理。支持 Serverless 形态，可快速拉起 AI 计算任务，运维全面自动化。

易用的分布式大模型训练只需简单配置即可自动分布式并发执行，优化的计算、网络、通信和存储架构可提高资源利用率，加快模型训练速度，让训练时间和成本大幅缩减。

集群管理通过控制台页面或 OpenAPI 即可快速的进行集群的创建、扩容和缩容操作，提供丰富的监控指标展示、事件类型以及运行统计，通过可视化的方式可快速查看运行情况，定位主机和服务异常，并提供从主机、网络到作业任务的关联诊断分析工具。方便性能调优和问题溯源。

网络联通提供高性能的 RDMA 计算网络、RDMA 存储网络和管控网络，采用高性能和高可用的方式来访问其它阿里云服务，具有强安全隔离、分钟级部署、无级变速、原生高可靠等特点。

高性能存储并行IO访问架构，单集群最高可达2TB/s吞吐和3000万IOPS，支持与云上和线下存储数据互通。

应用场景

大模型训练

科研智算

场景简介

支持Serverless的AI研发场景，支持如GPT-3(175B)、M6(万亿参数)、PLUG、STAR等大模型的训练，提供深度优化的智能计算服务，可为图形图像处理（如AIGC图像生成）、自然语言处理（如AIGC文本生成）、语音、视频等应用场景提供高效、可预期的训练服务，加速迭代效率。

全局优化，更高效率

“万卡级”线性拓展

满足不同规模AI训练算力需求，点对点通信延迟低至2us，算力资源平滑扩容，性能线性拓展

超高吞吐和IOPS

针对AI训练场景，数据预先加载至持久化存储，保障训练时数据加载和写入的高带宽需求，提升训练效率

高资源利用率

对GPU资源进行细粒度切分调度，满足协同开发，技术经双十一大规模应用验证，资源利用率可提升3倍

场景简介

超大规模融合算力，支持深度学习和高性能计算作业统一部署调度，为基础科研、新药研发、工程仿真等场景构建统一标准计算服务，促进范式创新、效率提升，促进AI与HPC开发生态融合。

融合开发生态，促进多元创新

促进科研新范式

支持云原生和容器化的AI和HPC应用生态，为基础科研、新药研发、新材料研发等场景提供统一计算服务，支持跨地区、跨团队协同，提升资源使用率，同时促进技术生态融合，催化协同效应

打造科研大平台

基于RDMA技术和阿里云高性能通信库，构建低时延高带宽网络环境，针对AI+HPC应用进行通信优化，点对点时延可低至2us，最大可支持数万节点并行计算，为大规模科学计算提供极具效率优势的智能计算服务

文档与工具

查看产品文档

查看操作指南

关注产品社区

产品方案咨询