
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
摘要: 7月12日10点,英伟达研究员刁诗哲将在青稞Talk第62期直播分享其团队提出的ProRL框架,探讨如何通过长期强化学习提升大模型的推理能力。研究提出多样化奖励任务、改进算法组合(GRPO+DAPO)及KL正则化等策略,突破传统RL训练的局限性。刁诗哲在NVIDIA从事大模型与强化学习研究,发表多篇顶会论文。直播将解析ProRL的理论框架与实验效果,详情可访问青稞Talk主页或论文arXi

PAGE-4D:动态场景中视觉几何任务的解耦框架 MIT和哈佛团队提出PAGE-4D模型,解决视觉几何基础变换器(VGGT)在动态场景中的固有矛盾:相机姿态估计需抑制动态区域,而几何重建需建模动态信息。该模型通过动态感知聚合器预测动态掩码,实现静态/动态信息解耦——姿态估计时抑制运动线索,几何重建时增强动态表示。实验显示,相比VGGT,PAGE-4D在深度估计准确率提升20-40%,姿态误差降低1

研究团队提出WildToolBench基准测试,聚焦真实用户与AI交互中的"野生"行为模式。该测试包含256个场景,覆盖三大核心挑战:组合任务工具编排、多轮对话隐含意图推断和指令实时切换应对。评估58个主流模型发现,最高会话准确率不足15%,揭示现有AI工具调用能力与真实需求间的巨大差距。研究指出,未来AI发展需强化对用户复杂意图的理解,而非仅优化工具执行能力。数据集和评估框架

在预训练 Scaling Law之后,测试时扩展(Test-time Scaling, TTS)已成为提升大模型推理能力的关键。OpenAI o1与DeepSeek R1等模型通过强化学习(RL)进行推理的范式,充分展现了TTS的潜力。然而,推理模型的性能上限仍深受基础模型(其架构与预训练数据)的制约。当前,标注数据的匮乏限制RL效果。。在最新的研究中,来自清华大学和上海人工智能实验室的研究员提出

摘要: 7月12日10点,英伟达研究员刁诗哲将在青稞Talk第62期直播分享其团队提出的ProRL框架,探讨如何通过长期强化学习提升大模型的推理能力。研究提出多样化奖励任务、改进算法组合(GRPO+DAPO)及KL正则化等策略,突破传统RL训练的局限性。刁诗哲在NVIDIA从事大模型与强化学习研究,发表多篇顶会论文。直播将解析ProRL的理论框架与实验效果,详情可访问青稞Talk主页或论文arXi

《Sparse VideoGen:无需训练的视频生成加速方法》摘要 加州伯克利与MIT团队提出的Sparse VideoGen通过挖掘3D Full Attention中的时空稀疏性,实现了视频扩散Transformer的2倍加速。该方法识别出Spatial Head和Temporal Head两种注意力模式,分别处理空间邻近性和时间连贯性,并创新性地采用Online Profiling策略动态优

来源:公众号@NewBeeNLPChatGPT横空出世,打响了生成式AI创业热潮的发令枪。在国内,智谱AI、百川智能、零一万物、月之暗面、Minimax率先领跑。今年6月,前微软全球副总裁姜大昕创办的阶跃星辰,开始受到资本的青睐,一轮20亿美元的融资,将其送上了第一梯队的牌桌。自此,大模型创企的“六小虎”的格局形成。从新年伊始,AI应用层的井喷被预告为今年AI领域的最强看点。3月份,Kimi200

关注公众号:青稞AI,第一时间了解最新AI技术

大模型产品每周的最新进展和创新应用

2024/12/16~2024/12/22模型产品动态








