
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
(arXiv:2504.13837)给出了一个冷静的观察:在 pass@k 这种"采样 k 次只要有一次对就算对"的指标下,经过 RLVR(Reinforcement Learning with Verifiable Rewards)训练的模型,当 k 取得足够大时,其可达到的解题集合。所以正确的工程顺序是——先选够强的基座,再用真实轨迹 SFT 把目标行为塞进分布,最后用回合级奖励的 RL 去"

(arXiv:2504.13837)给出了一个冷静的观察:在 pass@k 这种"采样 k 次只要有一次对就算对"的指标下,经过 RLVR(Reinforcement Learning with Verifiable Rewards)训练的模型,当 k 取得足够大时,其可达到的解题集合。所以正确的工程顺序是——先选够强的基座,再用真实轨迹 SFT 把目标行为塞进分布,最后用回合级奖励的 RL 去"

我们一直以为"让模型多想一会儿"只有好处,但近期一篇论文给出了反直觉的结论:当你强化大模型(Large Language Model, LLM)的推理能力时,它在调用工具时反而更容易"一本正经地胡来"。但当你让他去库房取东西时,他会因为"想得太多"而脑补出一个根本不存在的货架编号,然后信誓旦旦地告诉你"东西就在 B7"。最简单有效的一招是白名单校验:模型说要调某个工具,先在代码里查这个工具名和参数

我们一直以为"让模型多想一会儿"只有好处,但近期一篇论文给出了反直觉的结论:当你强化大模型(Large Language Model, LLM)的推理能力时,它在调用工具时反而更容易"一本正经地胡来"。但当你让他去库房取东西时,他会因为"想得太多"而脑补出一个根本不存在的货架编号,然后信誓旦旦地告诉你"东西就在 B7"。最简单有效的一招是白名单校验:模型说要调某个工具,先在代码里查这个工具名和参数

摘要: 推理时计算扩展(Inference-Time Compute Scaling)是提升大语言模型(LLM)表现的新范式,通过增加推理计算量(如多次采样、自我验证、树搜索)在参数固定的情况下持续优化输出质量。核心方法包括Best-of-N采样、自我一致性投票及过程奖励模型(PRM)引导的搜索策略,其中PRM结合树搜索(如OpenAI o1模型)成为前沿方向。研究显示,推理计算与模型参数存在可替

摘要:本文提供agentmemory记忆增强工具的完整安装与配置指南,涵盖Node.js环境准备、全局安装步骤、服务启动验证(端口3111/3113)、Claude Code连接方式(项目级/全局配置)、三种LLM选项配置(免费BM25/低成本DeepSeek/Anthropic API),以及开机自启设置和常见问题解决方案。重点指导开发者通过终端命令完成全流程部署,并通过Viewer界面(311

摘要:Claude Code提供五层自动化开发实践:1)上下文管理(CLAUDE.md记录项目规范);2)五种工作流模式(根据任务复杂度选择);3)Hooks自动化质量检查;4)无人值守调度任务;5)MCP服务器集成企业工具链。Anthropic实测显示,该方案显著提升开发效率,调试时间缩短80%以上,使团队能独立完成功能开发。提示词优化可进一步提升自动化效果。

摘要:agentmemory 是为 Claude Code 等 AI 编程助手设计的本地记忆服务,解决 LLM 助手"跨会话失忆"问题。它通过自动 hooks 和 53 个 MCP 工具静默捕获、存储和检索项目上下文,完全本地运行无需云端。核心功能包括自动记忆捕获、智能召回和本地存储检索(BM25+向量索引),可选低成本 LLM 进行记忆压缩。让 Claude Code 记住项目架构、技术栈和历史

在会话末尾告诉 Claude:请用 memory_save 保存本次会话的关键决策和注意事项Stop hook 会自动做合并,但手动触发一次能确保重要信息被标记高优先级。

Anthropic推出多智能体协作审稿系统 Anthropic近日发布Claude Managed Agents三项新功能:目标驱动评分(Outcomes)、多智能体编排(Multiagent Orchestration)和异步回调(Webhooks)。这些功能共同构成了一个完整的智能审稿流水线解决方案。 系统采用主从架构设计,主代理(Lead Agent)使用轻量级Haiku模型负责任务分发,三








