logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【AI论文】ProRL:延长的强化学习扩展了大型语言模型的推理边界

摘要:本研究挑战了强化学习(RL)仅放大语言模型已有能力的观点,提出通过Prolonged RL(ProRL)训练可发现全新推理策略。ProRL方法整合KL散度控制、策略重置和多样化任务,在16,000 GPU小时的训练后,模型在数学、代码等任务上pass@1准确率提升14.7%-54.8%,特别解决了基础模型完全失败的场景。研究表明RL能持续扩展推理边界,其效果取决于基础模型能力和训练时长。虽然

文章图片
#人工智能#语言模型#自然语言处理
【AI论文】DeepMesh:基于强化学习的自回归艺术家网格创建

三角形网格在3D应用中扮演着至关重要的角色,能够实现高效的操作和渲染。虽然自回归方法通过预测离散的顶点标记来生成结构化的网格,但它们往往受到面数限制和网格不完整性的约束。为了应对这些挑战,我们提出了DeepMesh框架,该框架通过两项关键创新来优化网格生成:(1)一种高效的预训练策略,结合了新颖的标记化算法,以及在数据整理和处理方面的改进;(2)将强化学习(RL)引入3D网格生成中,通过直接偏好优

文章图片
#人工智能#回归#数据挖掘
如何通过腾讯云平台执行SFT微调大语言模型

RAG并不是万能的,也会带来额外的Token开销,如果希望将RAG里的知识内化为大语言模型的知识,或者希望对模型进行干预,比如希望llama模型回答自己是某某公司开发的而不是Meta公司开发的(哈哈,有点太绷面子了^-^),就要对既有的LLM进行微调。3. 进一步,选择LLama3 8B Instruct模型,选择按量计费,地域选择靠近客户的地域,如果没有可用GPU,可以换一个地域,选择GPU进阶

文章图片
#语言模型#人工智能#自然语言处理
大语言模型训练的数据集从哪里来?

4. 以下是llama开源模型早期版本的预训练数据集来源,来源于多个数据集,大概4.8TB,比GPT3多了Github、ArXiv(开放的学术论文分享平台,Kaggle上也有它的数据集)还有StackExchange。1. GPT2使用的数据集是WebText,该数据集大概40GB,由OpenAI创建,主要内容爬取自Reddit平台的出站网络链接对应的网站,每个链接要至少有三个赞,以保障数据质量。

文章图片
#语言模型#人工智能#机器学习
【AI论文】Skywork R1V2:用于推理的多模态混合强化学习

我们展示了Skywork R1V2,这是下一代多模态推理模型,也是其前身Skywork R1V的重大飞跃。R1V2的核心是引入了一种混合强化学习范式,将奖励模型指导与基于规则的策略相协调,从而解决了长期以来在复杂的推理能力和广泛的泛化能力之间取得平衡的挑战。为了进一步提高训练效率,我们提出了选择性样本缓冲(SSB)机制,该机制通过在整个优化过程中优先考虑高价值样本,有效地解决了组相对策略优化(GR

文章图片
#人工智能
【AI论文】GLM-4.1V-思考:借助可扩展强化学习实现通用多模态推理

摘要:本研究推出GLM-4.1V-Thinking视觉语言模型,通过大规模预训练和创新的课程采样强化学习(RLCS)框架,显著提升了多模态推理能力。模型在28个基准测试中全面超越同类7B模型,与72B大模型相比,在18项任务中表现相当或更优,尤其在STEM推理和长文档理解等复杂任务上展现出竞争力。研究开源了GLM-4.1V-9B-Thinking模型,其性能媲美GPT-4o等闭源模型,为多模态AI

文章图片
#人工智能
【AI论文】Flow-GRPO:通过在线强化学习训练流匹配模型

我们提出了Flow-GRPO,这是第一种将在线强化学习(RL)集成到流匹配模型中的方法。 我们的方法使用两个关键策略:(1)ODE到SDE的转换,将确定性常微分方程(ODE)转换为等价的随机微分方程(SDE),该方程在所有时间步长上与原始模型的边际分布相匹配,从而为RL探索提供统计采样; 以及(2)一种降噪减少策略,该策略减少了训练降噪步骤,同时保留了原始推理时间步数,在不降低性能的情况下显著提高

文章图片
#人工智能
【AI论文】SpatialLM:面向结构化室内建模的大型语言模型训练

摘要:SpatialLM是一种新型多模态大型语言模型,专为三维空间理解而设计。该模型采用标准LLM架构,通过微调开源模型处理点云数据,输出结构化三维场景(包括建筑元素和语义化物体框)。研究者构建了包含12,328个室内场景的大规模合成数据集,并验证了该模型在布局估计和三维物体检测任务上的优越性能,其中布局估计F1值达86.5%,物体检测性能接近专用模型。研究展示了LLM在增强现实、机器人等领域的空

文章图片
#人工智能#语言模型#自然语言处理
【AI论文】LongWriter-Zero:通过强化学习掌握超长文本生成技术

摘要:本研究提出一种基于强化学习(RL)的超长文本生成方法LongWriter-Zero,突破传统监督微调(SFT)的数据依赖限制。通过设计复合奖励模型(长度、写作质量、格式)和Group Relative Policy Optimization训练框架,该方法显著提升生成文本的连贯性与质量。实验表明,基于Qwen2.5-32B训练的模型在WritingBench和Arena-Write基准测试中

文章图片
#人工智能
【AI论文】GoT-R1:利用强化学习释放多模态大型语言模型(MLLM)在视觉生成中的推理能力

视觉生成模型在处理复杂文本提示(涉及多对象空间关系及属性)时存在困难。本文提出GoT-R1框架,通过强化学习增强语义空间推理能力,使模型自主优化推理策略。该框架采用双阶段多维奖励机制,利用MLLM评估语义对齐、空间精度和视觉质量。实验表明,GoT-R1在T2I-CompBench基准测试中显著提升组合任务性能,尤其在空间关系与属性绑定方面表现优异。研究为复杂视觉生成任务提供了有效解决方案,未来可优

文章图片
#人工智能#语言模型#自然语言处理
    共 626 条
  • 1
  • 2
  • 3
  • 63
  • 请选择