腾讯云发布新一代高性能算力集群来进行大模型训练- DoNews

DoNews4月14日消息，腾讯云今日发布面向大模型训练的新一代HCC（High-Performance Computing Cluster）高性能计算集群，整体性能比过去提升了3倍。其采用英伟达H800 Tensor Core GPU，能够提供高性能、高带宽、低延迟的智算能力支撑。

据介绍，一个人工智能大模型，通常得用数万亿个单词训练，参数量也“飙升”到了上万亿。这个时候，只有高性能的计算集群能hold住。算力集群的性能，由单机算力、网络、存储共同决定。就像一个牢固的木桶，缺一不可。

H800是英伟达公司2023年为了绕开美国的技术出口限制，特意为中国市场量身打造的一款计算卡产品。与原有的H100相比，其互连速率减掉了一半左右，在某些大型模型训练里的延迟会增加，降低了工作负荷。

腾讯云新一代集群通过对单机算力、网络架构和存储性能进行协同优化，能够为大模型训练提供高性能、高带宽、低延迟的智算能力支撑。在网络方面，公司自研的星脉高性能网络，能让大模型集群训练效率提升20%。

腾讯云的训练框架AngelPTM，对内支持腾讯混元大模型的训练，也已通过腾讯云对外提供服务。在2022年10月，完成了首个万亿参数大模型训练，并将训练时间缩短80%。

腾讯云的TI平台（一站式机器学习平台）拥有大模型能力和工具箱，能帮助企业根据具体场景，进行精调训练，提升生产效率，快速创建和部署 AI 应用。

腾讯云还透露，其自研芯片已经量产，包括用于AI推理的紫霄芯片。它采用自研存算架构和自研加速模块，可以提供高达3倍的计算加速性能和超过45%的整体成本节省。