logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Transformer——Q144 分析模型并行的流水线气泡(Pipeline Bubble)时间占比

模型并行的流水线气泡是影响训练效率的一个重要因素。通过深入分析其产生的原因和时间占比的数学模型,我们可以更好地理解流水线并行的性能瓶颈。在实际应用中,尤其是在 LLM 的训练中,流水线气泡问题可能会导致计算资源的严重浪费。为了优化训练效率,我们可以采取增加微批次数量、减少阶段数、重叠计算和通信、动态调整流水线等策略。同时,使用如 DeepSpeed 等成熟的框架可以简化模型并行的实现,提高开发效率

#transformer#深度学习#人工智能
Transformer——Q123 验证标签平滑(Label Smoothing)对模型校准误差的影响

标签平滑作为一种有效的技术手段,在大语言模型等机器学习任务中对于改善模型的校准性能、减少校准误差具有重要作用。它通过对传统独热编码标签进行平滑处理,缓解了模型的过自信问题,使模型的预测更加合理和可靠。尽管标签平滑存在初期收敛速度可能变慢和可能降低模型区分能力等缺点,但通过合理的优化策略,如调整平滑参数、结合其他正则化方法和动态调整平滑程度等,可以在很大程度上克服这些不足。

#transformer#深度学习#人工智能
神经网络激活函数全解析

在神经网络中,激活函数用于引入非线性,使模型能够学习复杂的模式。以下是一些常见的激活函数及其特点:公式: 输出范围: (0, 1)特点: 常用于二分类问题的输出层,但容易导致梯度消失。公式: 输出范围: (-1, 1)特点: 比Sigmoid更常用,因为它的输出以0为中心,但仍然存在梯度消失问题。公式: 输出范围: [0, ∞)特点: 计算简单,能有效缓解梯度消失问题,但可能导致神经元“死亡”。公

#神经网络#人工智能#深度学习
Transformer——Q93 推导基于能量的采样(Energy-Based Sampling)的马尔可夫链收敛性

基于能量的模型(EBM)用能量函数为每个样本赋予一个 "质量分数":能量越低,样本越符合人类预期。例如,生成诗歌时,能量函数会惩罚语法错误(如 "春风吹又生,花开花落" 的逻辑断裂)和主题偏离(如在冬天主题中频繁出现 "烈日")。通过玻尔兹曼分布,能量被转化为概率分布:这里的温度** 低温模式(T→0)下,马尔可夫链蒙特卡洛(MCMC)方法通过 "提议 - 接受" 机制构建一条状态转移链:提议生成

#transformer#深度学习#人工智能
Transformer——Q147 分析ZeRO优化器的内存节省量化模型

ZeRO 优化器通过梯度、优化器状态和模型参数分片的创新方式,为解决大语言模型训练中的内存瓶颈问题提供了有效的解决方案。通过详细的内存节省量化模型推导,我们可以清晰地看到其在不同阶段的内存优化效果。在 LLM 的实际训练中,ZeRO 优化器已经展现出强大的能力,使得超大规模模型的训练在普通计算集群上成为可能。然而,ZeRO 优化器也存在通信开销大、训练复杂度高和可能影响训练稳定性等问题。通过采用通

#transformer#深度学习#人工智能
Transformer——Q113 证明记忆压缩Transformer的池化操作信息损失上界

记忆压缩 Transformer 的池化操作,本质是用数学上界为 “信息压缩” 买了一份 “保险”—— 我们知道最坏情况下会丢多少信息,从而能在内存限制下选择合适的压缩力度。从长文本生成到代码处理,池化让 Transformer 突破了序列长度的枷锁,但也需要结合动态策略和上界感知训练,才能让 “压缩后的信息” 依然足够支撑模型的复杂推理。

#transformer#深度学习#人工智能
机器学习和人工智能领域的模型分类

在机器学习和人工智能(AI)领域,模型可以根据其和进行多维度分类。

#机器学习#人工智能#分类
Transformer——Q112 分析Performer的随机正交投影(FAVOR+机制)的方差稳定性

Performer 的 FAVOR + 机制通过随机正交投影,在降低注意力计算复杂度的同时,实现了方差稳定性。正交投影的数学性质确保了投影后向量内积的期望与方差特性接近原始计算,使模型训练更平稳、结果更可靠。在 LLM 实战中,无论是长对话生成、文档处理还是代码生成,FAVOR + 都展现了高效与稳定的优势。尽管存在投影矩阵开销和维度依赖问题,但通过动态维度调整、稀疏投影等优化策略,可进一步提升其

#transformer#深度学习#人工智能
常用滤波算法简介

一种动态系统状态估计算法,通过递归预测和观测修正,实时融合多源数据(如传感器输入),用于导航、机器人定位、金融预测等场景。非线性滤波器,通过滑动窗口取中位数消除脉冲噪声(如椒盐噪声),保护图像边缘,广泛应用于工业质检、文档扫描。| ✅ 实时性强,适合动态系统 | ❌ 依赖精确模型,非线性场景需改进 || ✅ 彻底消除脉冲噪声 | ❌ 对高斯噪声无效,大窗口模糊细节 || ✅ 高效抑制高斯噪声 |

#算法
机器学习和人工智能领域的模型分类

在机器学习和人工智能(AI)领域,模型可以根据其和进行多维度分类。

#机器学习#人工智能#分类
    共 24 条
  • 1
  • 2
  • 3
  • 请选择