logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

字节DAPO算法:改进DeepSeek的GRPO算法-解锁大规模LLM强化学习的新篇章(代码实现)

本篇博客将为熟悉PPO和GRPO的深度学习与强化学习研究者详细介绍DAPO的创新点及其数学基础。

文章图片
#算法#transformer#深度学习 +2
论文Nex-N1: Agentic Models Trained via a Unified Ecosystem for Large-Scale Environment Construction

论文提出“agentic scaling”方法,通过一个统一生态系统(Nex生态)自动化构建大规模交互环境,训练出Nex-N1系列模型。

文章图片
#算法#人工智能#机器学习
论文Nex-N1: Agentic Models Trained via a Unified Ecosystem for Large-Scale Environment Construction

论文提出“agentic scaling”方法,通过一个统一生态系统(Nex生态)自动化构建大规模交互环境,训练出Nex-N1系列模型。

文章图片
#算法#人工智能#机器学习
FlowBench论文阅读:Workflow-Guided Planning for LLM-based Agents

FlowBench 是 EMNLP 2024 论文《FlowBench: Revisiting and Benchmarking Workflow-Guided Planning for LLM-based Agents》提出的首个工作流引导代理规划基准,旨在评估 LLM-based Agents 在知识密集型任务中的规划可靠性。

文章图片
#人工智能#算法
强化学习(RLVR)真的能提升大语言模型的推理能力吗?——解读最新研究

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

文章图片
#语言模型#人工智能#自然语言处理
τ-bench:重塑Agent评估的工具-代理-用户交互基准

《τ-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains》

文章图片
#人工智能#机器学习
τ-bench:重塑Agent评估的工具-代理-用户交互基准

《τ-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains》

文章图片
#人工智能#机器学习
    共 522 条
  • 1
  • 2
  • 3
  • 53
  • 请选择