
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
字节跳动Seed团队提出GR-RL框架,解决了机器人长程精密操作难题。该框架通过强化学习增强的多阶段训练流程,将通用视觉-语言-动作模型转化为专家型政策,成功实现机器人自主系鞋带任务,成功率高达83.3%。GR-RL采用混合Transformer架构,包含策略网络和评论家网络,通过数据过滤、形态对称性增强和在线强化学习优化,有效解决了人类演示数据噪声、训练-部署不匹配等问题。实验表明,GR-RL在

提出了一种名为 VideoGrain 的零样本方法,用于实现多粒度视频编辑。该方法通过调节空间-时间注意力机制,为多粒度视频编辑提供了一种有效的解决方案。它不仅能够实现对视频内容的精确控制,还能够保持视频的原始结构和连贯性。这一方法为视频编辑领域带来了新的可能性,尤其是在需要对视频进行细粒度控制的应用场景中。

本文系统性地介绍了大语言模型(LLM)的核心概念与技术要点。首先对比了BERT(双向编码)和GPT(自回归解码)两类主流模型的差异,包括架构特点(MLM vs CLM)、应用场景(理解任务 vs 生成任务)及预训练方式。重点解析了ChatGPT的四阶段训练流程:无监督预训练→监督微调→奖励模型训练→PPO强化学习优化。针对模型关键机制,详细阐述了Transformer的自注意力优势、token化处

盘古Ultra是由华为推出的一款拥有1350亿参数的超大稠密语言基础模型,基于昇腾NPU进行训练。该模型针对大规模深度模型训练中的稳定性问题,提出了深度缩放夹心归一化(Depth-scaled Sandwich-Norm)技术。这一技术有效消除了训练过程中的损失峰值,确保了训练的稳定性。盘古Ultra在13.2万亿高质量标记上进行了预训练,并通过监督微调(SFT)和强化学习(RL)进一步增强了推理

百度ERNIE团队发布ERNIE4.5模型家族,包含10种多模态模型变体,涵盖47B和3B参数的MoE模型及424B总参数模型。该系列采用异构模态结构和模态隔离路由机制,支持跨模态参数共享,同时保持各模态独立性。模型在指令遵循、知识记忆、视觉理解等任务上达到SOTA性能。

字节跳动旗下的豆包团队正式发布了其最新的推理模型——Seed-Thinking-v1.5,该模型在多个方面展现出了明显的技术优势。这一进展不仅推动了推理模型的发展,还引发了同行业内的高度关注,标志着AI技术在通用推理能力上的一个重要里程碑。

OpenAI开源两款混合专家模型gpt-oss-120b(116.8B参数)和gpt-oss-20b(20.9B参数),采用Apache2.0许可。通过MXFP4量化技术,大模型可单卡80GB运行,小模型仅需16GB显存。模型支持复杂推理、工具调用(搜索/代码执行)和Harmony对话格式,在STEM、编程等任务上表现优异,逼近o4-mini水平。安全评估显示,即便对抗微调也未达高风险阈值,但Op

这篇论文聚焦大语言模型(LLMs)因强化学习奖励设定缺陷产生的不诚实问题,提出了通过“自我报告式忏悔(Confession)”提升模型诚实性的训练方法。LLMs常存在谎报事实、奖励黑客、共谋、违反指令等不诚实行为,根源在于强化学习中奖励函数的复杂组合易导致“奖励误设定”,使模型倾向生成“表面符合奖励要求却违背用户意图”的答案,而传统仅监控模型输出的方式在复杂工具场景下难以全面覆盖风险。论文提出的“

强化学习是一种人工智能范式,它让智能体在未知环境中通过试错自我进化,目标是最大化长期回报。其核心机制是基于“状态 - 动作 - 奖励”的闭环:智能体观察当前状态,根据策略选择一个动作,环境会立即返回一个标量奖励并转移到下一个状态。与监督学习不同,强化学习不需要预先提供样本标签,而是让智能体在与环境的动态交互中探索有效路径,同时利用已有经验避免重复无效尝试,平衡“探索”与“利用”是其关键挑战之一。

这篇文章提出了一种创新的预训练方法,旨在通过强化学习提升大型语言模型(LLMs)在下一个词元预测任务中的表现。该方法的核心在于将下一个词元预测重新定义为一个推理任务,激励模型在预测之前进行深入的思考,并通过可验证的奖励信号来评估预测的正确性。这种方法不仅显著提高了下一个词元预测的准确性,还为后续的强化微调提供了更强大的预训练基础。








