
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
我们提出了Flow-GRPO,这是第一种将在线强化学习(RL)集成到流匹配模型中的方法。 我们的方法使用两个关键策略:(1)ODE到SDE的转换,将确定性常微分方程(ODE)转换为等价的随机微分方程(SDE),该方程在所有时间步长上与原始模型的边际分布相匹配,从而为RL探索提供统计采样; 以及(2)一种降噪减少策略,该策略减少了训练降噪步骤,同时保留了原始推理时间步数,在不降低性能的情况下显著提高

摘要:本文提出LongCodeZip,一种专为代码LLMs设计的双阶段压缩框架,通过粗粒度函数级压缩和细粒度块级优化,显著提升长代码上下文处理效率。实验表明,该方法在代码补全、摘要等任务中实现最高5.6倍压缩比,同时保持任务性能,将Qwen2.5-Coder-7B的生成时间从15.7秒降至6.59秒。研究验证了其跨模型泛化能力,但指出评估依赖LLM分数、语言局限性等问题。未来拟融合人类评估、多语言

大型语言模型(LLMs)在处理复杂推理任务时面临挑战,尽管思维链(CoT)提示方法显著提升了推理能力,但其不加选择地为所有查询生成冗长推理步骤,导致计算成本高昂且效率低下。为解决这一问题,研究团队提出了AdaCoT(自适应思维链)框架,使LLM能够自适应地决定何时调用CoT。AdaCoT将自适应推理视为帕累托优化问题,通过强化学习(RL)方法,特别是近端策略优化(PPO),动态控制CoT触发决策边

本研究针对大语言模型监督微调(SFT)泛化能力不足的问题,提出动态微调(DFT)方法。通过理论分析发现标准SFT梯度存在隐式奖励结构问题,DFT通过动态调整词元损失函数解决了这一缺陷。实验表明,在多个数学推理基准测试中,DFT显著优于标准SFT,平均准确率最高提升15.66点,且在离线强化学习场景中也表现优异。研究还发现DFT能更快收敛、对超参数更鲁棒,并导致词元概率呈现双峰分布。虽然目前评估限于

购买的数据模型、数据定义、结构和托管选项是什么应用程序(COTS)?定义和维护所有数据要求和设计的规则是什么信息系统的组成部分?使用 使用什么可共享的存储库来捕获模型内容和支持信息数据信息?用于以下目的的物理数据模型定义(从逻辑数据模型中派生)是什么设计数据库?选择了哪些软件开发和数据管理工具?已经确定哪些数据所有者负责共同数据定义,消除计划外的冗余,提供始终可靠、及时和准确信息,并保护数据免遭滥

RAD是一种创新的端到端自动驾驶训练方法,通过结合基于3DGS的闭环强化学习和模仿学习,成功解决了模仿学习面临的因果混淆和开环差距等问题。实验结果表明,RAD在安全性、轨迹一致性和驾驶平滑性方面均表现出色,尤其是在处理复杂和动态交通情况时具有显著优势。尽管目前仍存在一些局限性,但RAD为端到端自动驾驶算法的训练提供了新的思路和方向,具有广阔的应用前景。停止生成pdf5.4w 字。

TTRL方法的核心思想是在测试时间利用强化学习技术来优化大型语言模型的性能。具体来说,该方法通过生成多个候选输出,并使用多数投票等方法来估计真实标签,从而计算奖励信号,进而指导模型的自我优化过程。

摘要:本文提出BlenderFusion框架,通过分层-编辑-合成流程实现复杂场景的可控生成。首先将视觉输入分解为可编辑3D实体,在Blender中进行精确编辑,再通过改进的扩散模型进行合成。核心创新包括:双流架构处理原始与编辑场景,源场景掩码训练策略增强编辑灵活性,以及物体抖动模拟实现解耦控制。实验表明,该方法在物体控制精度和视觉质量上显著优于现有技术,特别是在多物体编辑和背景替换任务中。研究同

摘要:Seedream4.0是一款高效多模态图像生成系统,集成了T2I合成、图像编辑和多图组合功能。采用高效扩散变换器与压缩VAE架构,显著减少图像标记数量,支持1K-4K高分辨率生成。系统通过数十亿图文对预训练,结合对抗蒸馏和量化技术,实现1.8秒快速推理2K图像。在MagicBench4.0评估中,其T2I和编辑任务表现优于GPT-Image等模型,尤其在多图编辑和专业内容生成方面优势突出。未

大型语言模型(LLMs)在处理复杂推理任务时面临挑战,尽管思维链(CoT)提示方法显著提升了推理能力,但其不加选择地为所有查询生成冗长推理步骤,导致计算成本高昂且效率低下。为解决这一问题,研究团队提出了AdaCoT(自适应思维链)框架,使LLM能够自适应地决定何时调用CoT。AdaCoT将自适应推理视为帕累托优化问题,通过强化学习(RL)方法,特别是近端策略优化(PPO),动态控制CoT触发决策边








