re:Invent中国行:亚马逊云科技是如何推动生成式AI发展的?

不久前,在亚马逊云科技2023年re:Invent中国行北京站上,大中华区产品部总经理陈晓建分享了亚马逊云科技在生成式AI领域的最新进展。

生成式AI正在以意想不到的方式提高人类的生产力,然而,企业在落地生成式AI时通常会面临许多挑战。为了解决这些问题,亚马逊云科技提出了应用生成式AI的三层架构。

首先,最底层的基础设施层,关注性能、成本和最终经济效益。亚马逊云科技一直致力于提供用于训练基础模型和在生产中运行这些模型的基础设施,13年前,亚马逊云科技率先将GPU带入了云,目前GPU服务器已广泛用于HPC、视频、AI等多种应用。在AmazonEC2 P3实例中,亚马逊云科技率先提供了NVIDIA V100 GPU。今年早些时候,亚马逊云科技成为全球第一家将NVIDIA最新的芯片H100 GPU和Amazon EC2 P5实例推向市场的云提供商。这些Amazon EC2 P5实例提供了惊人的性能,在训练上比Amazon EC2 P4实例快4倍,而成本只是P4的60%。

不过,要提高生成式AI的基础训练性能,除了高性能的GPU芯片,陈晓建提到,跨节点的分布式训练已成为训练大模型的标准范式,训练卡之间的通信和主机节点之间的通信也会成为影响整个集群训练的关键因素。亚马逊云科技的Amazon EFA提供了高达3.2T的网络互联能力,客户可以在单个集群中部署多达两万个GPU芯片的超级规模集群,提供相当于20个ExaFLOPS的集成能力,等同于一台超级计算机。

在本次re:Invent上,亚马逊云科技CEO Adam Selipsky和NVIDIA CEO共同宣布了几项最新的服务。他们将提供首款搭载NVIDIA Grace Hopper超级芯片和亚马逊云科技UltraClusters技术的云AI超级计算机。首款使用NVIDIA最新芯片GH200 NVL32的NVIDIA DGX云将登录亚马逊云科技。

除了提供强大的基础设施之外,亚马逊云科技在中间层也提供了访问基础模型的最便捷的方式。这一层让没有AI经验的构建者可以直接获得应用生成式人工智能所需的所有工具,来构建自己的应用。对于没有技术基础的业务用户,亚马逊云科技在顶层也提供了利用基础模型构建的开箱即用的应用程序,让用户能在具体场景中直接使用生成式AI。

陈晓建强调:“我们的目标是让所有人都能利用生成式AI的力量。”他表示,亚马逊云科技将继续致力于为客户提供简单、高效且具有成本效益的解决方案,以帮助他们充分释放生成式AI的潜力。

除了硬件和软件方面的创新外,亚马逊云科技还通过与NVIDIA的合作进一步推动了生成式AI的发展。两家公司共同开展了“Project Ceiba”合作项目,将全球最快的GPU驱动AI超级计算机和NVIDIA DGX云超级计算机用于NVIDIA AI的训练、研发和定制化模型的开发,它将拥有1.6万个最新的GH200超级芯片,提供高达65 ExaFLOPS的惊人算力。

Copyright © DoNews 2000-2024 All Rights Reserved
蜀ICP备2024059877号-1     京ICP证151088号
京网文【2018】2361-237号