认识AI硬体的开放架构-OAI & OAM

16 May 2024

在AI领域,开放加速器基础设施(OAI)是由全球最具影响力的开源硬体组织之一:开放计算项目(OCP)所设立的一个子组织。 自2019年起,OAI专注于定义适合大规模深度学习训练的AI加速卡形态,解决了多元AI加速卡形态和接口不统一的问题。 透过发布OAI-UBB(通用底板)1.0设计规范,OAI推动了AI加速硬体平台的标准化,使其能够无需修改即支援不同厂商的产品,显著提升了AI模组的扩展性和灵活性。

 

AI巨头们陆续采用的架构- OAM (Open Accelerator Module)

对于AI伺服器开发商来说,开放加速模组(OAM)带来了显著的好处。 由于AI加速晶片的多样化和专业化,开发商面临着更高的开发成本和较长的开发周期。 OAM的出现为这些开发商提供了一种高效且可扩展的解决方案,使他们能够更容易地整合新的AI加速器。 这不仅降低了进入门槛,还加快了产品的市场推广时间。

OAM带来的优点与挑战

OAM有着三项显著优点,使其在当今快速发展的AI市场中显得尤为重要。

1.高效能与效率:OAM能显著提高处理的性能和效率,对于需求高算力的应用,如深度学习和机器学习,表现特别突出。

2.可扩展性:OAM设计允许在不同的系统和基板之间实现灵活的兼容性和扩展性,从而能够适应不断进步的高算力负载和技术发展。

3.支持多样的应用场景:OAM适用于多种领域,包括AI推理、科学模拟以及数据分析等,这种多样性使其能够满足广泛的业务需求。

这些优点展示了OAM在现代数据中心和高性能计算环境中的应用潜力和灵活性。

但是与此同时,采用OAM也需要面对几项挑战

1.技术和设计复杂性:当前专用的AI硬体系统在技术和设计上相当复杂,这使得将新的AI加速器整合到系统中通常需要6到12个月的时间,从而阻碍了新竞争技术的快速采纳。

2.高功耗管理:随着OAM产品设计功率的增加,达到600W以上时Base Specification已经建议采用液体冷却技术,这表示高功耗管理是一大挑战,特别是在未来功率可能轻易超过700W的情况下。

3.标准化和兼容性:AI加速器的快速演进和多样性对于标准化和兼容性有更高的要求,以支持各种硬体加速解决方案的可扩展性和模块间的高速通信链接。

正凌能为OAM设计者做什么

正凌为市场上少数同时拥有高速传输、机构设计与散热模组的方案商。 已经为市场上几家领导AI晶片设计者提供高速I/O与OAM相关产品。 对于OAM的设计,正凌总结出两项常见的挑战:

1. 配合散热的结构设计:Top Stiffener with Thermal Solution

Top Stiffener 虽然在Base Specification中着墨甚少,但却需要良好的结构设计来配合OAM设计,否则会直接影响散热的效率。 好的Top Stiffener设计包括良好的支撑与导热,才能让air-cooling solution 例如3U 或是4U高度的3D VC充分发挥功效。 面对超过600W TDP的下一世代方案,还需要整合Cold plate的liquid cooling 。 这些都考验制作厂商在机构设计、材料选择以及对散热技术的了解才能实现。

2. 加工工艺上的挑战:OAM Bottom Stiffener

OAM与UBB连接不良是实务上最常见的问题,而连接不良往往来自于对于OAM Bottom Stiffener的轻忽。 OAM普遍采用的是Mirror Mezz Pro Connector,在Base Specification里提到的公差必须维持在± 0.15mm,但由于组装能力以及加工能力的差异,不良的Bottom Stiffener往往会导致最终组装公差过大或是两端 不平均导致连接不良。 无论是多优秀的AI晶片。

结语

AI相关的技术在近年来发展突飞猛进,带来的挑战更是跨领域的。 正凌在与AI领导者一起克服种种困难的同时,更加深刻体会到要实现让人惊艳的AI表现背后,每一个小细节都至关重要。 也希望所累积的各种经验与能力,能够为更多的AI产品开发者解决问题,让这个改变人类文明的技术能够更加便利的为所有人使用。


This website uses technical and analytical cookies, including third-party cookies, to analyse user browsing behaviour, create website visit statistics and improve the contents provided. To consult the full Cookie Policy or decline, at a later date, your consent to the cookies used by the website, click here.

Got It!