腾讯太极机器学习平台个人主页

@m0_68969027

腾讯太极机器学习平台

2024-10-18 19:51:20 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

鹅厂发布的这个算力集群，最快4天训练万亿参数大模型

HCC高性能集群针对大模型场景，集成了腾讯太极机器学习平台AngelPTM等自研框架，其加速引擎对网络协议、通信策略、AI框架、模型编译进行大量系统级优化，大幅节约训练成本。相比上一代，服务器带宽从1.6T提升到3.2T，算力性能提升3倍。

#深度学习 #机器学习 #腾讯云

支持十万卡GPU，腾讯这张“网”是如何支撑大模型的？

腾讯推出的高性能网络星脉，具备业界最高的3.2T通信带宽，为AI大模型带来10倍通信性能提升。基于腾讯云新一代算力集群HCC，可支持10万卡GPU的超大计算规模。

#腾讯云 #机器学习 #人工智能 +1

腾讯Angel获中国电子学会科技进步一等奖，破解万亿模型训练推理难题

为了提高训练效率，TB级机器学习模型通常采用分布式训练方法，需要大量的参数和梯度同步，以1.8T模型千卡训练为例，IO通信量达到25TB, 耗时占比53%，此外，加上不同算力集群间的异构网络环境，通信网络延迟不一，这些都对模型训练过程中的通信开销提出了较高的要求。另外，针对面向推荐系统的图模型训练，腾讯Angel机器学习平台设计了图节点特征自适应图网络结构搜索技术，可自动输出最优结构，解决了TB