索木目-黄淮个人主页

@hliyuxin

索木目-黄淮

2024-12-05 21:43:38 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

HCCL底层通信分析

摘要：本文分析了昇腾AI处理器两种通信路径——SDMA（卡间HCCS总线）和RDMA（跨机RoCE网络）的数据传输机制。SDMA路径通过HcclD2DMemcpyAsync实现HBM间直接异步传输，不经过AICore；RDMA路径则通过RoCE网卡DMA引擎直接读写注册的HBM物理地址，全程规避CPU参与。对比OpBase和Zcopy两种模式，前者需userIn到cclIn的拷贝但内存要求宽松，后

DSA(Deepseek Sparse Attention) 是一种稀疏Attention技术，主要用来节省Attention的计算量，用TopK个元素的Attention来代替原生的Attention, 原理有点像MLP部分的MoE。这意味着索引器和主模型会各自通过不同的损失函数（Loss）进行优化：索引器优化其挑选的"得分"，主模型则优化最终的语言建模损失。这个损失函数（通常为KL散度）会持续

在一个step最后optimizer 执行前，W的梯度会进行num_microbatches轮的累积，每轮还需要按DP维度进行累积。micro_batch_size 设置比较大，激活值存储很容易OOM，激活值需要至少保存micro_batch_size*seq_len*hidden_size*num_layers。通常说的梯度累积是W的梯度，X的梯度会在zbv的B阶段处理完就会丢弃。micro_b

#人工智能

大模型显示优化之ZeRO-1/ZeRO-2/ZeRO-3

zero-1、zero-2、zero-3 是deepspeed的配置方法，对应megatron也有相应的方法，Megatron-LM 的实现方式：Distributed Optimizer（分布式优化器）。等效于 ZeRO-1，Megatron 的 Distributed Optimizer 默认行为就是将优化器状态（Optimizer States）均匀地切分并分布在数据并行（DP）组的所有 G

#人工智能 #深度学习

大模型训练CP切分（与TP、SP结合）

本文重点探讨长文本训练的CP（Context Parallelism）技术及其与TP（Tensor Parallelism）、SP（Sequence Parallelism）的结合。当处理超长上下文（如1M token）时，CP与TP正交，SP=CP。在TP=1时，CP将输入按token维度切分，通过all-gather获取全局K/V；在TP>1时，CP与TP协同工作，矩阵按列切分到各GPU

#人工智能 #深度学习 #机器学习

DeepSeek V3 训练和推理

DeepSeek-V3的训练使用了：整个训练过程（包含预训练、上下文扩展和后训练）在2048张H800 GPU上完成，总计耗时约，成本约，这在同类模型中极具性价比。根据DeepSeek官方技术报告及多方技术解读，DeepSeek-V3在训练阶段采用的。。将256个路由专家分布到不同GPU上，每张卡托管约4个专家。

#人工智能 #算法

AI 分享内容

标志事件：1980年， DEC（大型机小型机生产商）落地XCON系统，解决人工配置运维问题，年处理超过8万份订单，准确率高达95%-98%，为公司节省3千万美元/年。时间：2017年Google 的几位研究员，提出Transformer架构，解决了传统神经网络处理长序列数据的难题，奠基了在自然语言处理领域的理论基础。2023年-2024年，国内大厂诞生练丹热潮，基础大模型，百度文心一言，阿里通义千

#人工智能

transformer各层的输入输出

层/组件输入形状输出形状核心功能[B, S][B, S, D]将离散token转为连续向量[B, S, D]注入位置信息[B, S, D]计算输入序列内部的上下文关系[B, S, D]非线性变换，特征加工[B, T, D]计算已生成输出序列的内部关系[B, T, D]让解码器关注编码器信息[B, T, D]非线性变换，特征加工[B, T, D][B, T, V]产生下一个词的概率分布关键记忆点维度

#transformer #深度学习 #人工智能

共 12 条

请选择