在2023年Ignite大会期间,
微软首次宣布其已开发出名为Maia的自主
人工智能加速器
芯片。今年早些时候,在Build开发者大会上,微软分享了其首个自主研发的人工智能加速器Azure Maia 100的更多细节。Maia 100 是台积电 5nm 节点上制造的最大处理器之一,专门为部署在 Azure 中的大规模 AI 工作负载而设计。
昨天,在 Hot Chips 2024 大会上,微软首次分享了 Maia 100 的规格,并透露了更多细节。你可以在下面找到它们的摘要。
Maia 100 规格
·芯片尺寸 - 820mm2
· 封装 - 采用 COWOS-S 夹层技术的 TSMC N5 工艺
· HBM BW/Cap - 1.8TB/s @ 64GB HBM2E
· 峰值密集张量 POPS - 6 位:3,9 位1.5,BF16:0.8
· L1/L2 - 500MB
· 后端网络 BW - 600GB/秒(12X400gbe)
· 主机 BW(PCIe)= 32GB/s PCIe Gen5X8
· 最高 TDP - 700W
· 额定 TDP - 500W
微软 Maia 100 系统采用垂直集成方式,以优化成本和性能。它还采用定制服务器板,配备专门设计的机架和软件堆栈,以提高性能。
Maia 100 SoC 架构
· 高速张量单元可为训练和推理提供高速处理,同时支持多种数据类型。该张量单元采用 16xRx16 结构。
· 矢量处理器是一个松散耦合的超标量引擎,采用定制指令集架构(ISA),支持包括 FP32 和 BF16 在内的多种数据类型。
· 直接内存访问(DMA)引擎支持不同的张量分片方案。
· 硬件 semaphores 支持 Maia 系统的异步编程。
· 为提高数据利用率和能效,大型 L1 和 L2 划痕垫采用软件管理。
Maia 100 采用基于以太网的互联技术和类似 RoCE 的定制协议,可实现超高带宽计算。它支持高达 4800 Gbps 的全收集和散射降低带宽,以及 1200 Gbps 的全对全带宽。
在软件方面,Maia
软件开发工具包(SDK)允许任何人快速将其 PyTorch 和 Triton 模型移植到 Maia。Maia SDK 为开发人员提供了多个组件,使他们能够轻松地将模型部署到 Azure OpenAI 服务。
开发人员可以选择两种编程模型来为 Maia 系统编程。他们既可以使用 Triton(一种用于深度神经网络 (DNN) 的流行开源特定领域语言 (DSL)),也可以使用 Maia API(一种 Maia 专用的定制编程模型,可通过更详细的控制实现最高性能)。此外,Maia 还原生支持 PyTorch 模型,开发人员只需更改一行即可执行 PyTorch 模型。
凭借其先进的架构、出色的开发者工具以及与 Azure 的深度集成,Maia 100 正在改变微软管理和执行人工智能工作负载的方式。微软 是否会像
Google对其TPU和
亚马逊对其Trainium和Inferentia芯片那样向第三方机构开放Maia 100加速器,还值得观察。