
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
LiveCodeBench是一个针对大型代码语言模型的评估平台,通过持续收集LeetCode、AtCoder和CodeForces的新题目进行动态更新。其特色包括:1)采用时间戳标记问题,有效防止数据污染;2)提供代码生成、错误修复、代码执行和测试输出预测等全面的评估维度;3)每个场景都设有专门的评估流程。该平台通过跟踪竞赛网站的实时问题更新,为模型评估提供了可靠且无污染的测试环境,并已在官网公开

本文系统梳理了强化学习(RL)从基础理论到前沿算法的演进路径。首先介绍了RL核心概念,包括代理、环境、状态、动作等基础要素。重点分析了策略梯度方法及其优化历程:从经典的REINFORCE算法,到引入基准线降低方差的改进版本;再到TRPO通过KL散度约束保证策略更新的稳定性;PPO则进一步简化TRPO,采用Clip机制控制策略更新幅度;最后介绍了GRPO算法,它通过采样多组输出计算平均奖励作为基准,

是anthropic团队开发的一个code agent bash工具。

cursor的agent模式, 多说一句,cursor目前我付费使用,是我目前为止使用过AI coding工具里最喜欢的一个,cursor nb!

PPO算法:强化学习的稳定优化方法 PPO(Proximal Policy Optimization)是OpenAI提出的高效强化学习算法,通过重要性采样和裁剪机制平衡策略更新稳定性与数据利用率。核心特点: 两种变体: PPO-Penalty:在目标函数中引入KL散度惩罚项,动态调整系数控制策略更新幅度。 PPO-Clip(更优):通过裁剪概率比($1\pm\epsilon$)限制更新步长,避免策

Aider评测包含两个版本:单语言Python代码编辑评测(code editing)和多语言评测(polyglot)。在code editing评测中,数据来源于Exercism Python练习库,每个题目包含说明文档、待实现的代码文件(函数/类)和单元测试。评测要求使用标准Python库完成函数实现,保持原有函数签名不变。以alphametics题目为例,展示了具体实现文件、测试文件及题目说

ClaudeCode最近可谓大火,风头甚至大于Cursor,我之前也解读过CLaudeCode一个版本的system prompt到整体架构以及tools。

主要有以下几种范式tool里面存在stop 相关的 tool,如果输出stop tool则stop,输出final ouput和1相似, 在loop中存在一个固定的类似于意图识别的模块,决定agent是否结束。

codebase_serch> {“Query”:“class SI _collect_factor_and_dimension”,“TargetDirectories”:[“/working/repo/sympy/sympy/sympy/physics/units”],“explanation”:“查找 physics/units 目录下 SI 类及其 _collect_factor_and_d
完成用户任务后,如果用户更正了你的操作、表达了编码偏好,或告知你需要记住的事实,请使用 update_user_preferences 工具保存他们的偏好。绝不要使用 multi_tool_use.parallel 或任何不存在的工具,要按照正确的流程使用工具,不要将工具输入内容写成 json 代码块输出。insert_edit_into_file 工具非常智能,能够理解如何将你的修改应用到用户的








