
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
GEM框架:面向大语言模型的通用经验生成器 本文提出GEM(通用经验生成器)框架,为大型语言模型(LLMs)提供标准化的强化学习环境接口。GEM支持多轮交互、工具集成和异步并行执行,包含24个多样化环境以及REINFORCE、PPO等基准算法。特别提出带回报批归一化的REINFORCE变体(ReBN),在多轮任务中展现出更优表现。实验验证了工具集成对模型性能的提升作用,并展示了算法在不同折扣因子下

可伸缩矢量图形(SVG)是一种在图形设计中广泛采用的重要图像格式,因其分辨率无关性和可编辑性而备受青睐。生成高质量SVG的研究一直吸引着AIGC(人工智能生成内容)领域的设计师和研究人员的持续关注。然而,现有方法要么产生结构不清晰的输出且计算成本巨大,要么仅限于生成结构过于简化的单色图标。为了生成高质量且复杂的SVG,我们提出了OmniSVG,这是一个统一的框架,利用预训练的视觉语言模型(VLMs

【研究摘要】本文提出微型递归模型TRM,一种仅含2层网络(700万参数)的轻量级递归推理架构。实验表明,TRM在数独、迷宫及ARC-AGI测试中表现优异:Sudoku-Extreme准确率87.4%,ARC-AGI-1达45%,性能超越参数量大千倍的LLMs(如Gemini2.5Pro)。通过递归更新潜在状态和深度监督策略,TRM实现42层等效推理深度,较HRM模型提升32.4%准确率且训练成本减

摘要:Seedance1.0是字节跳动团队提出的高性能视频生成基础模型,通过多项技术创新解决了当前视频生成在提示遵循、运动合理性和视觉质量平衡方面的核心挑战。该研究采用多源数据管理结合精确视频字幕、高效架构设计支持多任务学习、精细监督微调与视频专用RLHF优化,以及多级蒸馏策略实现约10倍推理加速。实验表明,Seedance1.0仅需41.4秒即可生成1080p高清视频,在文本/图像到视频任务中均

摘要:本研究提出Fast-dLLMv2,一种创新的块扩散语言模型,通过将预训练AR模型高效适配为并行生成架构,仅需10亿token微调数据(较现有方法减少500倍)。模型采用分层注意力掩码实现块级双向建模,配合分层缓存机制(块级/子块缓存),在保持AR模型质量的同时实现2.5倍解码加速。实验表明其性能与AR基线相当,为高效LLM部署提供了新方案。论文代码将开源(Huggingface链接:Pape

大型语言模型(LLMs)的出现促进了人工智能的变革性转变,为先进的智能代理铺平了道路,这些代理能够在不同的领域进行复杂的推理、强大的感知和多种多样的行动。随着这些代理越来越多地推动人工智能研究和实际应用,它们的设计、评估和持续改进带来了错综复杂、多方面的挑战。这项调查提供了一个全面的概述,将智能代理构建在一个模块化的、受大脑启发的架构中,该架构整合了认知科学、神经科学和计算研究的原则。我们将探索分

摘要:本研究针对大语言模型(LLMs)在数学推理任务中存在的训练不稳定问题,提出基于方差的自适应课程强化学习框架VCRL。创新性地利用群体奖励方差作为样本难度度量,动态筛选中等难度样本进行训练,同时引入回放学习机制提升样本效率。在五个数学基准测试上的实验表明,VCRL显著优于现有强化学习方法(GRPO/DAPO/GSPO),尤其在高难度任务上表现突出。该框架有效平衡了训练稳定性与推理性能,为LLM

我们介绍了Seed1.5-VL,一个视觉语言基础模型,集成了532M参数的视觉编码器和20B参数的混合专家LLM。尽管结构紧凑,Seed1.5-VL在60个公共VLM基准中的38个上实现了最先进的性能,并在以代理为中心的任务中超越现有系统如OpenAICUA和Claude3.7。该模型展示了强大的视觉和视频理解能力,以及在视觉谜题等复杂推理任务中的有效性。我们详细回顾了模型设计、数据构建和训练过程

视觉推理是人类智能的核心组成部分,也是高级多模态模型的关键能力。然而,目前对多模态大型语言模型(MLLM)的推理评估往往依赖于文本描述,并允许基于语言的推理捷径,无法衡量真正的以视觉为中心的推理。为了解决这个问题,我们引入了VisuLogic:一个包含六个类别(例如,定量变化、空间关系、属性比较)的1000个人工验证问题的基准。可以评估这些不同类型的问题,以从多个角度评估MLLM的视觉推理能力。我

摘要:本文提出了一种模块化多智能体框架,用于将UI设计自动转换为前端代码。该框架通过定位、规划和生成三个可解释阶段执行转换:定位智能体识别UI组件,规划智能体构建层次化布局,生成智能体产出HTML/CSS代码。研究还开发了一个可扩展的数据引擎,自动生成大规模图像-代码对用于模型训练。实验表明,该方法在布局准确性、结构一致性和代码正确性方面达到最优性能。相比端到端黑箱方法,该框架具有更好的鲁棒性和可








