logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

百度开源文心一言4.5:论文解读和使用入门

百度ERNIE团队发布ERNIE4.5模型家族,包含10种多模态模型变体,涵盖47B和3B参数的MoE模型及424B总参数模型。该系列采用异构模态结构和模态隔离路由机制,支持跨模态参数共享,同时保持各模态独立性。模型在指令遵循、知识记忆、视觉理解等任务上达到SOTA性能。

文章图片
#百度#开源#人工智能 +1
Seed-Thinking-v1.5:字节豆包新推理模型发布,200B参数战胜Deepseek

字节跳动旗下的豆包团队正式发布了其最新的推理模型——Seed-Thinking-v1.5,该模型在多个方面展现出了明显的技术优势。这一进展不仅推动了推理模型的发展,还引发了同行业内的高度关注,标志着AI技术在通用推理能力上的一个重要里程碑。

文章图片
#AIGC
GPT-oss:OpenAI再次开源新模型,技术报告解读

OpenAI开源两款混合专家模型gpt-oss-120b(116.8B参数)和gpt-oss-20b(20.9B参数),采用Apache2.0许可。通过MXFP4量化技术,大模型可单卡80GB运行,小模型仅需16GB显存。模型支持复杂推理、工具调用(搜索/代码执行)和Harmony对话格式,在STEM、编程等任务上表现优异,逼近o4-mini水平。安全评估显示,即便对抗微调也未达高风险阈值,但Op

文章图片
#人工智能#自然语言处理#语言模型 +1
OpenAI新论文!GPT-5-Thinking新训练方法

这篇论文聚焦大语言模型(LLMs)因强化学习奖励设定缺陷产生的不诚实问题,提出了通过“自我报告式忏悔(Confession)”提升模型诚实性的训练方法。LLMs常存在谎报事实、奖励黑客、共谋、违反指令等不诚实行为,根源在于强化学习中奖励函数的复杂组合易导致“奖励误设定”,使模型倾向生成“表面符合奖励要求却违背用户意图”的答案,而传统仅监控模型输出的方式在复杂工具场景下难以全面覆盖风险。论文提出的“

文章图片
#人工智能#深度学习#自然语言处理 +1
强化学习入门(1):概念、Sarsa、Q-Learning、Dyna-Q

强化学习是一种人工智能范式,它让智能体在未知环境中通过试错自我进化,目标是最大化长期回报。其核心机制是基于“状态 - 动作 - 奖励”的闭环:智能体观察当前状态,根据策略选择一个动作,环境会立即返回一个标量奖励并转移到下一个状态。与监督学习不同,强化学习不需要预先提供样本标签,而是让智能体在与环境的动态交互中探索有效路径,同时利用已有经验避免重复无效尝试,平衡“探索”与“利用”是其关键挑战之一。

文章图片
#人工智能
RPT:预训练新范式,用强化学习做预训练!

这篇文章提出了一种创新的预训练方法,旨在通过强化学习提升大型语言模型(LLMs)在下一个词元预测任务中的表现。该方法的核心在于将下一个词元预测重新定义为一个推理任务,激励模型在预测之前进行深入的思考,并通过可验证的奖励信号来评估预测的正确性。这种方法不仅显著提高了下一个词元预测的准确性,还为后续的强化微调提供了更强大的预训练基础。

文章图片
#深度学习#AIGC#nlp
LaViDa:基于扩散模型的多模态大模型,速度超越next-token范式

这篇文章提出了一种基于离散扩散模型(DMs)的新型视觉语言模型(VLM),LaViDa,旨在解决现有自回归(AR)VLMs在推理速度和可控生成方面的局限性。文章详细介绍了LaViDa的设计、训练和推理过程,并通过一系列实验验证了其在多模态任务中的性能和优势。

文章图片
#人工智能#pytorch#transformer
手搓GRPO:手把手教你从头跑通Deepseek关键算法GRPO

本文介绍了GRPO(广义奖励近端优化)算法在强化学习中的应用,特别是在大语言模型对齐任务中的优势。GRPO在PPO基础上改进,通过灵活的奖励建模和精细化策略控制提升训练稳定性和样本效率。文章详细展示了使用Qwen2.5-0.5B-Instruct模型在GSM8K数学推理数据集上的实现过程,包括数据准备、模型训练和评估。GRPO采用组相对优势计算和KL散度惩罚,有效解决了稀疏奖励、模式崩溃等问题。实

文章图片
#python#开发语言#人工智能 +2
s1:李飞飞团队新作,仅使用1000条数据训练,达到o1水平!

本文提出了一种名为“简单测试时扩展”(Simple Test-time Scaling)的方法,旨在通过在测试阶段增加计算资源来提升语言模型的推理性能。该方法的核心是通过少量数据的监督微调(Supervised Fine-Tuning, SFT)和一种称为“预算强制”(Budget Forcing)的技术来控制模型在推理过程中的思考时间,从而实现性能的显著提升。研究团队通过精心策划的数据集s1K,

文章图片
#人工智能#AIGC#深度学习 +2
字节跳动GR-3:可泛化、支持长序列复杂操作任务的机器人操作大模型(技术报告解读)

GR-3是一个大规模视觉-语言-动作(VLA)模型,具备强大的泛化能力,能够处理新物体、新环境和抽象指令。通过协同训练大规模视觉-语言数据和机器人轨迹数据,GR-3实现了对复杂语义的理解和动作预测。其高效的小样本学习能力仅需少量人类轨迹即可快速适配新任务。实验表明,GR-3在可泛化抓取放置、长跨度桌面整理和灵巧布料操作等任务中表现优异,显著超越基线方法。结合专为灵巧操作设计的双臂移动机器人Byte

文章图片
#人工智能#计算机视觉#语言模型 +2
    共 89 条
  • 1
  • 2
  • 3
  • 9
  • 请选择