
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
摘要: AI领域概念迭代迅猛,继Prompt、Context Engineering后,又出现Harness Engineering(驾驭工程),本质是为AI系统构建“缰绳”以提升效能。OpenAI等案例显示,优化系统提示、工具配置等“驾驭”手段,可使同一模型性能跃升(如LangChain代理准确率提升13.7%)。其核心包含上下文工程、架构约束和自检机制,但AI生成代码的可维护性仍是隐忧。实践建

文章摘要:本文介绍了cluade项目的配置实践方法。项目级配置通过.cluade文件和CLAUDE.md实现团队协作,包含构建命令、架构决策等关键信息;个人偏好则存储在~/.claude/目录。文章建议采用渐进式配置步骤,从基础设置开始逐步扩展,并介绍了模块化的rules/文件夹、确定性的hooks系统、可重用工作流的skills/文件夹以及专业化的agents/文件夹。最后强调了settings

《ARC-AGI-2:新一代AI抽象推理基准测试》 摘要:ARC-AGI-2是评估AI系统抽象推理与泛化能力的权威基准,通过网格变换谜题测试模型在全新问题上的适应能力。该基准包含1200个独特任务,采用Pass@2评估机制,要求模型在两次尝试内解决未见过的测试对。最新评测显示,顶级模型如GPT-5.2仅达54%准确率,远低于人类60-66%的表现。与传统知识型基准不同,ARC-AGI-2专注流体智

GDPval-AA代表了AI能力评估的重要演进。通过其经济上有价值的任务、盲比较Elo评分和动态更新机制,它提供了比传统静态基准更准确、更相关的模型能力相对排名。Elo系统提供动态相对排名,优于静态绝对分数盲评估防止偏差,确保公平比较冻结评分确保稳定性,避免频繁重新评估Claude Sonnet 4.6的显著改进(1633 Elo)显示推理效率提升经济价值焦点区分GDPval与学术基准经济上有价值

摘要: 本文探讨了AI Agent记忆系统的设计挑战与解决方案。作者指出当前常见的对话历史存储和向量数据库检索存在局限性,提出了短期记忆的检查点机制(Checkpointing)和两种长期记忆架构:基于文件的自组织系统和混合图谱(Hybrid Graph)。系统通过主动处理信息、分层检索、冲突解决和智能遗忘机制,确保记忆的准确性和时效性。文章强调记忆是基础设施而非功能,建议将Agent视为操作系统

AI代码生成能力被高估:Cursor一周生成300万行浏览器代码引热议,但实验显示AI仍无法完全替代人类开发。虽然GPT-5.2在标准化任务上表现优异,但在核心业务逻辑、创新功能等场景仍存在幻觉累积、错误放大等致命缺陷。研究指出,AI代码质量更多依赖人为设计的约束机制(如分层架构、测试驱动),而非自主创造能力。专家建议将AI用于重复性任务、内部工具等低风险场景,但需保持人类对核心业务逻辑的掌控。当

AI技术趋势与应用实践概览 本文总结了2025年AICon北京站大会的9大技术领域核心内容。主要涵盖AI Agent技术体系、模型优化、端侧AI、RAG知识管理等前沿方向。重点分析了技术发展趋势:Agent化、端侧化、工程化和标准化。实践层面强调场景选择、人机协作和数据驱动等关键要素。文中提供了多个开源项目资源,包括tRPC-Agent、Milvus等,并附有专业术语解释。数据表明,AI工具如Gi

摘要: 本文探讨了如何有效利用AI工具中的"技能"(Skills)功能,重点介绍了Claude Code/Open Code等平台中技能的分类与最佳实践。技能作为灵活的扩展点,可分为9类:库与API参考、产品验证、数据获取与分析、业务流程自动化、代码脚手架、代码质量审查、CI/CD部署、操作手册和基础设施运维。文章强调技能制作应避免冗余信息,建立"陷阱"规则

本文分析了Claude Opus 4.6的Agent Teams多智能体协作系统及其在OpenCode平台中的实现方案。Claude的Agent Teams采用分布式架构,支持并行执行、独立上下文和协调通信等特性,适用于代码审查、多领域研究等复杂任务。OpenCode通过四层金字塔架构(Agents、Skills、Tools、Rules)实现类似功能,提供任务编排、流程标准化和底层执行能力。两者对

AI 时代最好的应用是将AI技术融入到主流工具应用中,做自动化和智能化相关的集成。从前年(或许更早)开始就与不少大公司申请政府补贴项目,将AI的学习、识别、分析理解、响应决策等融入到自家的产品或系统中。看了英伟达官网的文档说明,场景识别光线条件,并优化渲染效果与材质融合,清晰度和还原逼真度都有很大幅度的提升。大家也可以看到最近几个月文生图、图生图、文生视频等各类技术也是有了很大进步,基于游戏场景对








