
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
《Flow-GRPO: Training Flow Matching Models via Online RL》

Politics and protectionism will make life difficult

本篇博客将为熟悉PPO和GRPO的深度学习与强化学习研究者详细介绍DAPO的创新点及其数学基础。

论文提出“agentic scaling”方法,通过一个统一生态系统(Nex生态)自动化构建大规模交互环境,训练出Nex-N1系列模型。

论文提出“agentic scaling”方法,通过一个统一生态系统(Nex生态)自动化构建大规模交互环境,训练出Nex-N1系列模型。

FlowBench 是 EMNLP 2024 论文《FlowBench: Revisiting and Benchmarking Workflow-Guided Planning for LLM-based Agents》提出的首个工作流引导代理规划基准,旨在评估 LLM-based Agents 在知识密集型任务中的规划可靠性。

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

《τ-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains》

《τ-bench: A Benchmark for Tool-Agent-User Interaction in Real-World Domains》









