logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

HCCL 集合通信深度解析:支撑超大规模并行训练的通信底座

在深度学习跨越到万亿参数大模型时代后,单计算节点的算力早已无法满足需求,分布式并行计算成为必然选择。集合通信库(HCCL)作为 CANN 软件栈中负责多卡、多节点协同的核心组件,其性能直接决定了集群的线性加速比。HCCL 不仅要解决传统的数据并行梯度同步问题,更需应对模型并行、专家并行(MoE)中复杂的数据重组挑战。本文将从模型并行需求、算法动态选择、软硬协同优化、错误隔离机制以及图引擎协作五个维

#mysql#服务器#运维
HCCL 集合通信深度解析:支撑超大规模并行训练的通信底座

在深度学习跨越到万亿参数大模型时代后,单计算节点的算力早已无法满足需求,分布式并行计算成为必然选择。集合通信库(HCCL)作为 CANN 软件栈中负责多卡、多节点协同的核心组件,其性能直接决定了集群的线性加速比。HCCL 不仅要解决传统的数据并行梯度同步问题,更需应对模型并行、专家并行(MoE)中复杂的数据重组挑战。本文将从模型并行需求、算法动态选择、软硬协同优化、错误隔离机制以及图引擎协作五个维

#mysql#服务器#运维
CANN 算子库深度解析:ops-math 的数学底座与硬件协同机制

随着信号处理与频域学习(如 FNO 算子)的兴起,复数运算成为了 ops-math 必须攻克的难题。由于大多数深度学习加速器的硬件指令集是针对实数向量设计的,NPU 硬件往往没有原生的复数乘法指令。ops-math 通过软件模拟的方式,在不改变硬件架构的前提下,实现了高效的复数运算逻辑。复数aiba+ibaib与cidc+idcid的乘法遵循ac−bdiadbcac−bdiadbc规则。

#服务器#数据库
CANN 算子库深度解析:ops-math 的数学底座与硬件协同机制

随着信号处理与频域学习(如 FNO 算子)的兴起,复数运算成为了 ops-math 必须攻克的难题。由于大多数深度学习加速器的硬件指令集是针对实数向量设计的,NPU 硬件往往没有原生的复数乘法指令。ops-math 通过软件模拟的方式,在不改变硬件架构的前提下,实现了高效的复数运算逻辑。复数aiba+ibaib与cidc+idcid的乘法遵循ac−bdiadbcac−bdiadbc规则。

#服务器#数据库
CANN 架构底层深度解析:Runtime 与驱动层的精密协作机制

Runtime 在驱动层之上,扮演着系统状态的维护者和资源分配的仲裁者。通过维护 NPU 核心的上下文状态并最小化上下文切换的开销,Runtime 确保了推理服务能够以极低的延迟响应请求,同时通过严格的句柄和版本管理,保证了算子执行的稳定性和可靠性。CANN 组织链接Runtime 仓库链接。

#服务器#mysql
Linux网络管理

断开网卡连接nmcli device disconnect+网卡。删除网络链接 nmcli connection delete。修改网络链接nmcli connection modify。删除网卡设备nmcli device delete +网卡。添加网络链接nmcli connection add。查看网卡配置nmcli device shou 加网卡。删除网卡所有的ip配置ip address

#linux#运维#服务器
DeepSeek各版本说明与优缺点分析

DeepSeek系列通过不断优化和迭代,逐渐在推理能力、数学和编码能力、以及多模态处理等方面取得了显著进展。从V1到R1,各个版本的表现不断提升,同时也暴露出不同的局限性。随着DeepSeek-R1的开源和强化学习优化,未来DeepSeek系列有望在科研和商业应用中继续引领AI技术的发展。

文章图片
DeepSeek各版本说明与优缺点分析

DeepSeek系列通过不断优化和迭代,逐渐在推理能力、数学和编码能力、以及多模态处理等方面取得了显著进展。从V1到R1,各个版本的表现不断提升,同时也暴露出不同的局限性。随着DeepSeek-R1的开源和强化学习优化,未来DeepSeek系列有望在科研和商业应用中继续引领AI技术的发展。

文章图片
到底了