logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

(2025|Deepseek,残差连接,残差映射投影,迭代归一化,核融合,混合精度,中间激活重新计算)mHC:流形约束的超连接

虽然超连接提出的扩宽残差流宽度和多样化连接能带来性能增益,但这些连接的无约束性质会导致信号发散。这种破坏损害了跨层信号能量的守恒,引发训练不稳定性并阻碍深度网络的可扩展性。为解决这些挑战,本文引入了流形约束超连接,一个将残差连接空间投影到特定流形上的通用框架。

文章图片
#深度学习#机器学习#transformer
(2026|北大 & Deepseek,Engram 模仿模型深度增加,MoE,分词器压缩,多头哈希稀疏检索,mHC)基于可扩展查找的条件记忆:LLM 稀疏性

本文介绍条件记忆作为对主流条件计算范式的互补稀疏性维度,旨在解决通过动态计算模拟知识检索的低效问题。本文通过 Engram 模块实例化了这一概念。通过构建稀疏性分配问题,本文发现了一个 U 形缩放定律,证明了稀疏容量在 MoE 专家和 Engram 记忆之间的混合分配严格优于纯 MoE 基线。在此定律指导下,本文将 Engram 扩展到 270 亿参数,在多个领域实现了卓越性能。

文章图片
#transformer
(2026|CVPR Oral|清华&阿里,测试时训练/TTT,线性模型,视觉 TTT 设计)ViT^3 |(ICML|清华,线性化 ViT,TTT 层继承注意力权重)T^5

本文介绍了 ViT³ 和 T⁵ 两篇关于 ViT 测试时训练的研究成果。ViT³ 系统性地探索了视觉 TTT 的设计空间,提出了六条核心原则,基于此构建的ViT³模型在多项视觉任务中表现优异。T⁵ 则聚焦如何将预训练 Softmax Transformer 快速转化为线性TTT模型,提出结构对齐和表示对齐策略,通过权重继承和键实例归一化实现高效转换。

文章图片
#计算机视觉#transformer
(2025|ICML|斯坦福,测试时训练(TTT),线性注意力,RNN,嵌套循环)学习(在测试时学习):具有表达性隐藏状态的 RNN

​通过使隐藏状态成为一个机器学习模型,并将更新规则设为自监督学习的一步,本文将监督学习表述为学习如何学习,包含两个嵌套循环。外循环与常规训练相同。外循环的参数是内循环的超参数。由于隐藏状态在测试序列上也会进行训练更新,这些层被称为TTT层

文章图片
#rnn#人工智能#深度学习
(2026|ICML|Meta & 斯坦福,无 Tokenizer 大模型,字节级建模,推理加速,扩散语言模型,推测解码)BLT-D:快速字节潜在 Transformer

本文在原生 BLT 基础上,从训练目标和推理策略双重优化,提出三种改进变体,解决字节模型生成慢的痛点:BLT-D 引入块级扩散辅助损失,实现单步多字节并行生成,速度最快;BLT-S 基于模型自身解码器做自推测解码,速度换质量;BLT-DV 扩散生成+自回归校验,兼顾速度与生成质量;所有变体相比原生 BLT,内存带宽成本降低 50% 以上,彻底扫清字节级大模型落地障碍。

文章图片
#transformer#语言模型#自然语言处理
(2026|ICLR|CMU,SSM,指数-梯形离散化,复数域状态/RoPE,MIMO/低时延)Mamba-3:基于 SSM 改进的序列建模

从初代粗糙的线性模型,到第三代兼顾速度、内存、精度的全能架构,Mamba-3 的问世,标志着状态空间模型正式走向成熟。在未来轻量化、低成本大模型的发展方向中,以 Mamba 为代表的线性模型必然成为主流。

文章图片
(2026|ICLR|CMU,SSM,指数-梯形离散化,复数域状态/RoPE,MIMO/低时延)Mamba-3:基于 SSM 改进的序列建模

从初代粗糙的线性模型,到第三代兼顾速度、内存、精度的全能架构,Mamba-3 的问世,标志着状态空间模型正式走向成熟。在未来轻量化、低成本大模型的发展方向中,以 Mamba 为代表的线性模型必然成为主流。

文章图片
(2026|Meta & 港大,无编码器统一多模态模型,像素空间,表示编码器,图像理解和生成)Tuna-2:像素嵌入在多模态理解和生成方面胜过视觉编码器

统一多模态模型 TUNA-2 直接在像素空间中执行多模态理解和视觉生成,无需依赖 VAE 编码器或潜在扩散。通过将统一的视觉语言主干与像素空间流匹配头相结合,TUNA-2 在单一框架内支持图像理解、文生图和图像编辑。

文章图片
#计算机视觉
(2026|ICLR|西电 & MedAI,师生蒸馏和学生自蒸馏,基于支持集图像重要性的可学习加权)D^24FAD:双蒸馏少样本异常检测

D^24FAD 是一种用于医学影像少样本异常检测的新型双蒸馏框架。通过利用预训练编码器作为教师网络,并采用一个在查询图像上蒸馏教师知识、同时在支持图像上进行自蒸馏的学生解码器,本文方法仅使用少量正常参考图像即可有效识别新任务中的异常。

文章图片
#计算机视觉#机器学习
(2025|CVPR|Meta,dino.txt,冻结 ViT,拼接类别和图像嵌入,基于对比的图文对齐,LiT)DINOv2 遇见文本:用于图像和像素的视觉语言对齐框架

本文提出 dino.txt,它成功地将一个从零训练的文本编码器与冻结的自监督视觉模型 DINOv2 对齐,从而解锁了开放词汇能力。该方法结合了无需人工标注的自监督数据筛选技术,实现了快速训练,并在零样本分类和开放词汇分割上取得了顶尖性能。

文章图片
#人工智能#深度学习#计算机视觉
    共 160 条
  • 1
  • 2
  • 3
  • 16
  • 请选择