logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

LiveCodeBench:对大语言模型进行全面且无污染的代码能力评估

LiveCodeBench是一个针对大型代码语言模型的评估平台,通过持续收集LeetCode、AtCoder和CodeForces的新题目进行动态更新。其特色包括:1)采用时间戳标记问题,有效防止数据污染;2)提供代码生成、错误修复、代码执行和测试输出预测等全面的评估维度;3)每个场景都设有专门的评估流程。该平台通过跟踪竞赛网站的实时问题更新,为模型评估提供了可靠且无污染的测试环境,并已在官网公开

文章图片
#语言模型#人工智能#自然语言处理 +1
一文全面入门强化学习:从基础概念、策略梯度、REINFORCE、RLOO、TRPO到PPO、GRPO算法

本文系统梳理了强化学习(RL)从基础理论到前沿算法的演进路径。首先介绍了RL核心概念,包括代理、环境、状态、动作等基础要素。重点分析了策略梯度方法及其优化历程:从经典的REINFORCE算法,到引入基准线降低方差的改进版本;再到TRPO通过KL散度约束保证策略更新的稳定性;PPO则进一步简化TRPO,采用Clip机制控制策略更新幅度;最后介绍了GRPO算法,它通过采样多组输出计算平均奖励作为基准,

文章图片
#算法#人工智能
【LLM+Code】Cursor Agent 46.11 版本Prompt&Tools最细致解读

cursor的agent模式, 多说一句,cursor目前我付费使用,是我目前为止使用过AI coding工具里最喜欢的一个,cursor nb!

文章图片
#人工智能#算法#语言模型
【RL第六篇】近端策略优化-PPO(Proximal Policy Optimization Algorithms)

PPO算法:强化学习的稳定优化方法 PPO(Proximal Policy Optimization)是OpenAI提出的高效强化学习算法,通过重要性采样和裁剪机制平衡策略更新稳定性与数据利用率。核心特点: 两种变体: PPO-Penalty:在目标函数中引入KL散度惩罚项,动态调整系数控制策略更新幅度。 PPO-Clip(更优):通过裁剪概率比($1\pm\epsilon$)限制更新步长,避免策

文章图片
#算法#语言模型
Aider leaderboards:大模型代码能力评测

Aider评测包含两个版本:单语言Python代码编辑评测(code editing)和多语言评测(polyglot)。在code editing评测中,数据来源于Exercism Python练习库,每个题目包含说明文档、待实现的代码文件(函数/类)和单元测试。评测要求使用标准Python库完成函数实现,保持原有函数签名不变。以alphametics题目为例,展示了具体实现文件、测试文件及题目说

文章图片
#人工智能#算法
截止目前,这里有70多个版本的Claude Code的PE变更记录

ClaudeCode最近可谓大火,风头甚至大于Cursor,我之前也解读过CLaudeCode一个版本的system prompt到整体架构以及tools。

文章图片
#算法#人工智能
【大模型LLM第十六篇】Agent学习之浅谈Agent loop的几种常见范式

主要有以下几种范式tool里面存在stop 相关的 tool,如果输出stop tool则stop,输出final ouput和1相似, 在loop中存在一个固定的类似于意图识别的模块,决定agent是否结束。

文章图片
#人工智能#算法
【LLM+Code】Windsurf Agent 模式Prompt&Tools详细解读

codebase_serch> {“Query”:“class SI _collect_factor_and_dimension”,“TargetDirectories”:[“/working/repo/sympy/sympy/sympy/physics/units”],“explanation”:“查找 physics/units 目录下 SI 类及其 _collect_factor_and_d

#AI
【LLM+Code】Github Copilot Agent/VsCode Agent 模式Prompt&Tools详细解读

完成用户任务后,如果用户更正了你的操作、表达了编码偏好,或告知你需要记住的事实,请使用 update_user_preferences 工具保存他们的偏好。绝不要使用 multi_tool_use.parallel 或任何不存在的工具,要按照正确的流程使用工具,不要将工具输入内容写成 json 代码块输出。insert_edit_into_file 工具非常智能,能够理解如何将你的修改应用到用户的

文章图片
#github#copilot#人工智能 +1
    共 251 条
  • 1
  • 2
  • 3
  • 26
  • 请选择