
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文提出 SAGE,让 Challenger/Planner/Solver/Critic 四智能体共享同一 LLM 骨干闭环共进化,仅用 500 条种子即在 Qwen-2.5-7B 上 LiveCodeBench 提升 8.9%、OlympiadBench 提升 10.7%。

想拥有自己的专属 AI 模型,却被动辄数百 GB 的显存需求劝退?

这周我把 Unsloth Studio 这个新工具试了下,结论是:**真的可以零代码跑通一次完整微调**。从加载模型、上传数据集、调超参到导出模型,全在浏览器界面里点。我用 Qwen3.5-4B 跑了一个"客服话术"风格化微调,整个流程不到一小时,显存峰值才 6GB 多一点。

其实,这个问题非常考验候选人的实践能力,如果一上来就聊向量数据库选型,然后直接说我调用API做解析和切片,那就属于没有理解面试官的意思了。

我以前看 Codex,体感上很容易把它理解成一个更强的 CLI,或者一个带 GUI 的代码助手,但把这三份资料和 OpenAI 官方 App Server 文档放在一起看完后,我的判断变了:Codex 真正要做的不是某一个端,而是一套围绕 agent runtime 展开的多端系统。

你有没有过这样的感觉:看到人工智能大神 Karpathy在4月初 提的那个 LLM Wiki 理念(让每一次对知识库的检索,都成为一次对知识库的进化),心里特别痒,觉得“这才是我想要的智能知识库”——然后上网一搜,发现要落地它,得先下载 Claude Code,或者折腾Hermes,还要再装个 Obsidian……

很多人以为提示词工程被淘汰了。其实被淘汰的从来不是提示词,而是提示词背后要解决的问题。

这个问题有一个坑,很多人都踩过却浑然不觉:给Agent写系统提示词时,当"自我介绍"来写,而非当"行为契约"来设计。结果就是边界失控,测试亮了红灯,模型却在聊天框里回复"全部通过"。

其实准确的来说,Claude Code 的上下文压缩有5级流水线,不是网上说的4级,也不是3级别。而且,有2个是没有源码的,后面我会介绍到。如果你没有看过源码,可能误以为5级的源码都有。

有位读者私信我,说他去面阿里大模型应用架构方向的岗位,被P9问了一道题,卡住了。题目是这样的:"你研究过 Claude Code 的源码,那你说下它的系统提示词是怎么写的?"他回答说就是静态内容和动态内容拼在一起,静态的放前面,动态的放后面。P9听完笑了笑,说"你说对了一部分,但实际上没这么简单,建议回去仔细看看"。








