
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
这篇论文是一份面向深度学习初学者的硬核教程,旨在揭开 Transformer 模型训练过程中的数学黑盒。它不依赖现成的深度学习框架自动求导功能,而是通过手算推导,展示了 Transformer 架构中各个组件(如自注意力机制、层归一化、LoRA 等)是如何通过反向传播算法计算梯度的。这篇论文通过纯数学的方式,让读者理解数据和误差信号如何在网络中流动,从而帮助读者从底层逻辑上掌握大模型是如何“学习”
大型语言模型(LLMs)虽然在很多任务上表现出色,但经常会产生,也就是生成看似合理但实际上错误的内容,这严重影响了它们的可靠性。目前的研究大多从宏观角度(如训练数据、训练目标)来分析幻觉,却鲜有研究深入到微观的层面。这就像医生只知道病人的症状,却不知道身体里哪个细胞出了问题,导致难以根除病灶。现有的难题在于,我们不知道模型内部究竟是哪些微小的计算单元在“撒谎”,以及它们是如何运作的。为了解决该问题

在大语言模型(LLM)能力持续突破的背景下,提升其在数学推理、复杂问题解决等长逻辑链任务上的表现,是学术界与工业界的核心议题。实验结果表明,HPT在多个数学推理基准上取得了超越现有最佳方法的性能,并验证了其对不同模型规模的有效性。这项工作不仅是一次技术实践的成功,更提供了一个深刻的理论视角:SFT与RL并非相互独立,而是可以被视为同一优化目标在不同条件下的具体实现。UPGE框架的价值在于提供了一个

谁能想到,DeepSeek-OCR的模型竟让硅谷集体沸腾?DeepSeek刚开源的DeepSeek-OCR,凭"用视觉压缩一切文本"的颠覆性思路,不仅在GitHub狂揽4K星+、冲上榜HuggingFace热榜第二,更被网友盛赞"开源了谷歌Gemini的核心机密",堪称AI领域的"JPEG时刻"!DeepSeek的OCR项目由Haoran Wei、Yaofeng Sun、Yukun Li三位研究员

卷积神经网络(CNN)能够逐层提取局部纹理、边缘等空间特征,在图像特征提取领域树立了黄金标准。而长短期记忆网络(LSTM)凭借其独特的门控机制,能够精准捕捉多尺度时间依赖,在金融时序预测、语音识别等序列建模任务中表现出色。CNN-LSTM混合架构通过实现了建模能力的飞跃。利用CNN的空间滤波器提取局部时序模式,再通过LSTM的门控机制建模全局动态演化规律,显著提升了模型的预测性能。

准备素材:将需要编辑的图像上传至文件夹。配置编辑参数:创建edits.yaml文件,指定输入图像路径、源提示词、目标提示词及目标代码(用于描述源与目标的差异,将体现在输出文件名中),可参考示例文件格式。创建实验配置文件(如自定义),设置n_maxn_min等超参数,并指定edits.yaml的路径,具体参数含义可参考论文。执行编辑:运行命令python run_script.py --exp_ya

ARC基准由数百个少样本(通常2-4个示例)推理任务构成,每个任务TTT对应独特的变换规则,实现从输入xxx到输出yyy的映射(xxx和yyy均为最大尺寸30×30的2D网格,每个位置含CCC任务基本单元:每个任务含演示集DdemoTxiyii1mDdemoT{(xiyii1mmmm为2-4个演示对,xix_ixi和yiy_iyi均已知)与推理集DinferTxiyii。

优化器是深度学习模型训练的核心组成。尽管 Adam 和 AdamW 等基于动量的优化器已经成为默认选择,随着大语言模型(LLM)等任务的模型参数持续扩展、训练成本不断增加,其在训练效率与收敛性方面的瓶颈逐渐显现。近年来,虽然如 Lion、Adan、SHAMPOO 等一系列新优化器相继被提出,但大多存在实现复杂、超参数敏感或开销较大等问题,难以替代 AdamW 的广泛地位。在此背景下,提出一种无需重

本文介绍了一款名为BriLLM的类脑大语言模型,它通过一种全新的信号全连接流动(SiFu)学习范式,从根本上重塑了机器学习的基础。为解决现有Transformer模型面临的黑箱不透明、二次方复杂度、上下文长度依赖等核心局限,BriLLM融合了两大关键的神经认知原理:(1)静态语义映射:将词元(token)精确映射到类似大脑皮层功能区的特化节点;(2)动态信号传播:模拟电生理信息流在节点间的流动来完

多模态特征融合是人工智能领域的关键技术,旨在整合文本、图像、语音等不同模态的数据,以挖掘深层关联并提升模型性能。早期方法依赖简单拼接,难以处理模态间的巨大差异,而深度学习虽能实现动态交互,却面临信息冗余与模态特性模糊的挑战。技术演进从单任务适配走向多层次交互,多模态大模型(MLLMs)通过分层融合显著提升了生成与推理能力,为内容创作、智能交互等领域带来新突破。本文提供了12篇多模态特征融合相关论文








