
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文旨在解决 Transformer 长序列推理时 KV 缓存随长度二次膨胀的问题。作者发现分隔符 token(如“.”、“,”)在注意力中权重显著高于语义 token,推测其已将所在片段信息压缩于自身。据此提出SepLLM:一种仅保留aaa个)、(全部)与nnn个)KV 的稀疏注意力机制;其余 token 在注意力中被掩码。

Recurrence-Complete Frame-based Action Models》这篇论文的真正价值,是促使我们重新审视“深度”的含义。过去,我们习惯用网络层数和参数量来衡量模型的深度与容量。而该研究有力地证明,如果一个模型在时间维度上不具备递归更新状态的能力,其理论表达力将受到结构性的限制。FBAM 架构及其展现出的新型缩放定律,为我们指明了一条通往更长时程、更强交互智能的可能路径。

多模态大语言模型(MLLMs)是当前AI领域的重要研究方向。这类模型突破了传统语言模型仅依赖文本的局限,融合文本、图像、音频等多种模态,使交互更自然、应用场景更广泛。例如,在智能客服中,它能结合语音与文字精准理解用户需求;在智能写作中,可根据图片生成适配文案,展现出强大的潜力。然而,多模态大语言模型的发展也面临诸多挑战。高质量多模态数据稀缺是一个关键问题,现有数据质量参差不齐,标注难度大、成本高,

考虑受控马尔可夫过程MSApMSAp,其中SSS为状态空间,AAA为动作空间,ps′∣saS×A→ΔˉSps′∣saS×A→ΔˉS为转移概率分布。给定无标签数据集DτiiDτii,包含长度一致(简化讨论)的无奖励轨迹;目标是学习目标条件策略πa∣sgS×S→Aπa∣sgS×S→A,最大化目标函数VπsgEτ∼pπτ∣sg∑t0TγtIs。

本文探讨了在计算资源受限(如仅有 8 张 RTX 4090)的真实环境下,如何科学地分配算力以训练出高性能的垂直领域语言模型。研究基于哈佛与斯坦福团队发表于 NeurIPS 2025 的EvoLM项目,通过对 100 多个 1B/4B 规模模型进行全生命周期(预训练 PT、持续预训练 CPT、监督微调 SFT、强化学习 RL)的穷举式实验,揭示了模型训练动力学的核心规律。文章否定了盲目追求大参数量

论文提出统一理论框架,证明监督微调(SFT)与直接偏好优化(DPO)均在最优策略-奖励子空间中运行,SFT是隐式奖励学习的特例。传统SFT中KL散度项在优化时退化为常数,导致模型更新缺乏约束,通过降低SFT学习率(如Llama3-8B降至5×10⁻⁶)可提升Post-DPO模型性能,相对增益达25%。此外,基于Pearson χ²、Squared Hellinger等f-散度推导的替代SFT目标能

就在昨天,的创业公司Sand AI推出的MAGI-1大模型以开源之姿重磅入场,成为视频生成领域的新晋焦点!随着短视频平台崛起与影视制作智能化转型,传统视频生成技术如基于规则的动画系统和早期GAN模型,已难以满足多样化场景需求。而基于Transformer与扩散模型的新一代技术,虽带来革新希望,却仍面临长序列计算复杂度高、生成内容时序混乱等挑战。随着AIGC应用向影视制作、虚拟主播、游戏开发等领域渗

尽管"压缩催生智能"是AI领域的经典认知,但VAE的压缩方式并未产生预期效果:其潜空间的信息承载能力与原始3通道像素几乎无异,反而因过度压缩丢失大量细节信息,直接限制了生成图像的精细度。更关键的是,SD-VAE的设计初衷并未将"高质量表征学习"纳入目标,这种先天定位偏差使得基于VAE的扩散模型不仅收敛速度缓慢,最终生成质量也难以突破瓶颈。采用RAE的模型收敛速度比基于SD-VAE的REPA快达16

请协助我总结研究结果,确保内容简洁明了,能够清晰地呈现关键发现,并有效支持我的研究假设或研究问题。总结应突出研究的核心成果,避免冗余信息,使读者能够快速把握研究的要点。

本文提出ARRA(自回归表示对齐)框架,通过引入全局视觉对齐损失与混合令牌,在不修改LLM架构的前提下,解决了其文本到图像生成时的全局连贯性不足问题。实验验证,ARRA在医疗(MIMIC-CXR)、自然图像(ImageNet)等领域均有效:降低先进LLM的FID值(如MIMIC-CXR上降25.5%),支持领域适配(医疗场景FID降18.6%),且加速训练收敛,证明“重设计训练目标”是突破跨模态生








