logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Transformer:从语言序列到人工智能,AI新纪元的架构基石

在这场从狭隘AI走向通用AI的漫长征程中,Transformer已为我们搭建了一座坚实的桥梁,而桥的彼岸,将是更广阔、更智能的未来。:围绕Transformer大模型,形成了从硬件(专用AI芯片)、框架(PyTorch、TensorFlow)、训练技术(分布式并行、混合精度)到应用(提示工程、AI智能体)的完整生态。:Transformer正成为科学发现的新工具。正是这种摒弃递归、完全基于注意力的

#人工智能#transformer#架构
模型的容量与控制:欠拟合与过拟合的博弈

在监督学习中,我们的目标不是让模型在训练集上取得完美成绩,而是希望它能在从未见过的“真题”——测试集上表现优异。这种能力被称为泛化能力。那么,是什么决定了模型的泛化能力?答案是模型容量。模型容量,通俗地讲,是指一个模型拟合各种函数的能力。容量低的模型,其“函数工具箱”里只有直线和平面,难以处理复杂的数据分布;容量高的模型,其工具箱里则有各种曲线、曲面甚至不规则形状,理论上可以拟合极其复杂的关系。低

#机器学习#人工智能#算法
权重衰减(Weight Decay)真的是越大越好吗?从约束到扼杀,你需要知道的真相

权重衰减到底是不是越大越好?不是。太小:无法有效抑制过拟合,模型泛化能力受限适中:平衡拟合与约束,提升泛化性能太大:导致欠拟合,或陷入梯度范数陷阱,反而损害性能从数学上看,权重衰减是在经验风险最小化和模型复杂度控制之间寻求平衡。从哲学上看,它体现了机器学习中的核心思想——没有免费的午餐,任何约束都是双刃剑。在实际应用中,权重衰减的调参不应是盲目地"越大越好"或"越小越好",而应是系统性地寻找那个平

#机器学习#算法#人工智能
学习率调度的艺术:从Warmup到余弦退火,掌握深度学习的训练节奏

学习率调度已经从简单的“阶梯下降”发展为一门精细的控制科学。Warmup解决了训练初期的冷启动问题,让我们能够安全地使用更大的学习率和大规模并行训练。余弦退火提供了一种优雅且强大的连续衰减方式,其变体SGDR更是通过热重启机制帮助模型逃离局部最优。自适应调度如则让学习率调整从“开环控制”走向了“闭环反馈”,根据模型的实际表现动态调整。未来,随着自动化机器学习(AutoML)的发展,学习率调度可能会

#深度学习#人工智能#神经网络
归一化技巧哪家强?Batch Norm、Layer Norm 与 Group Norm 深度解析

回到我们最初的问题:归一化技巧哪家强?没有绝对的强者,只有最适合的选手。如果你的任务是标准的图像分类,且你的GPU资源充足,可以维持较大的Batch Size(如32或以上),依然是一个简单且高效的选择。它经过了大量实践的检验,性能非常稳定。如果你的任务是自然语言处理(如文本分类、机器翻译、构建Transformer模型),或者你的模型包含RNN/LSTM,那么是毋庸置疑的标准答案。如果你是视觉方

#人工智能#机器学习#深度学习 +1
深度神经网络的结构拆解:通用逼近器是如何工作的

深度神经网络,作为通用逼近器,拥有表示世间万物规律的潜力。它解释了为什么我们坚信,只要有足够的数据和正确的架构,神经网络就能学会从图像到语音,从文本到决策的任何复杂映射。然而,从理论到实践,我们仍需跨越千山万水。参数搜索的困境、泛化的挑战、计算资源的限制,都是我们必须面对的现实问题。但正是这种“理论上可能”与“实践中探索”之间的张力,推动着深度学习不断向前发展。当我们下次使用一个预训练的大模型轻松

#dnn#人工智能#神经网络
梯度消失与爆炸:究竟是什么让深层网络难以训练?

梯度消失与爆炸问题是深度学习的核心挑战之一,它们源于反向传播中的链式法则带来的连乘效应。网络过深、饱和激活函数的使用以及不当的权重初始化都是导致这些问题的常见原因。针对梯度爆炸,梯度裁剪提供了一种简单而有效的防护针对梯度消失,ReLU等非饱和激活函数、He/Xavier初始化、批量归一化和残差连接共同构建了坚固的防线针对RNN的长期依赖问题,LSTM和GRU等门控架构提供了专门设计理解这些技术的原

#深度学习#人工智能#神经网络
过拟合的“克星”:深入理解Dropout、正则化与早停法

2012年,Hinton教授和他的学生们提出了一种革命性的正则化技术——Dropout。在每次训练迭代中,随机丢弃一部分神经元(包括它们的连接)。这里的“丢弃”是指临时将这些神经元从网络中移除,不参与前向传播和反向传播。在训练过程中,每个神经元都有概率$p$被保留,概率$1-p$被丢弃(通常$p$取0.5)。这意味着每次迭代时,我们实际上都在训练一个不同的、“瘦身”后的子网络。过拟合与欠拟合的博弈

#人工智能#神经网络#深度学习
损失函数的选择艺术:回归用MSE,分类用交叉熵?

除了纯回归、纯分类任务,实际场景中还存在“混合任务”(比如回归+分类结合),此时需要结合任务需求,设计自定义损失函数。通过本文的深入分析,我们打破了“回归用MSE,分类用交叉熵”的刻板认知,明白了损失函数的选择从来不是一个“固定公式”,而是一门结合任务特性、数据分布、模型结构的艺术。回顾全文,我们可以总结出损失函数选择的核心原则,也是这门“艺术”的精髓:1. 贴合任务目标:回归任务聚焦“连续值偏差

#回归#分类#数据挖掘
自动驾驶感知:融合摄像头与雷达数据的多模态目标识别

摄像头与雷达的融合,不仅仅是硬件的堆砌,更是两种认知世界的哲学的交汇——视觉追求的是“理解”,雷达追求的是“存在”。从早期的简单后融合,到如今基于Transformer的深度特征对齐,再到即将到来的大模型赋能,这项技术正以惊人的速度进化。作为自动驾驶领域的观察者或实践者,我们不仅要关注模型的精度指标,更要理解背后的物理本质与工程约束。未来的自动驾驶要想真正突破剩余的0.1%安全瓶颈,让机器在暴雨、

#自动驾驶#人工智能#机器学习
    共 20 条
  • 1
  • 2
  • 请选择