
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
RAG和Agent不是二选一的关系。RAG负责让AI知道"这个世界是什么样的",Agent负责"让AI去改变这个世界"。两个缺一个,应用都跑不通。如果你也在搭类似的系统,我建议从简单的路由+RAG开始,慢慢加Agent能力。别一上来就想搞全自动Multi-Agent——我见过太多团队死在第一步。下一篇聊聊这个架构里怎么设计Agent的短期记忆和长期记忆,欢迎关注。有问题评论区聊。参考资料。
GPT-Image 2 的手相解读,说实用吧……确实不是刚需。但说好玩吧,确实上头得很。我老婆看到我生成的图之后,也拍了张手让我帮她做一个。不过换个角度想:这个功能背后展示的能力——多模态理解 + 结构分析 + 视觉重构——才是真正值钱的东西。下次别人再用"AI 只是画图"这种话来说 ChatGPT 的时候,你可以直接给他看一眼这张手相图。然后说:你猜这是 AI 做的,还是设计师做的?
GPT-Image 2 的手相解读,说实用吧……确实不是刚需。但说好玩吧,确实上头得很。我老婆看到我生成的图之后,也拍了张手让我帮她做一个。不过换个角度想:这个功能背后展示的能力——多模态理解 + 结构分析 + 视觉重构——才是真正值钱的东西。下次别人再用"AI 只是画图"这种话来说 ChatGPT 的时候,你可以直接给他看一眼这张手相图。然后说:你猜这是 AI 做的,还是设计师做的?
GPT-Image 2 的手相解读,说实用吧……确实不是刚需。但说好玩吧,确实上头得很。我老婆看到我生成的图之后,也拍了张手让我帮她做一个。不过换个角度想:这个功能背后展示的能力——多模态理解 + 结构分析 + 视觉重构——才是真正值钱的东西。下次别人再用"AI 只是画图"这种话来说 ChatGPT 的时候,你可以直接给他看一眼这张手相图。然后说:你猜这是 AI 做的,还是设计师做的?
GPT-Image 2 的手相解读,说实用吧……确实不是刚需。但说好玩吧,确实上头得很。我老婆看到我生成的图之后,也拍了张手让我帮她做一个。不过换个角度想:这个功能背后展示的能力——多模态理解 + 结构分析 + 视觉重构——才是真正值钱的东西。下次别人再用"AI 只是画图"这种话来说 ChatGPT 的时候,你可以直接给他看一眼这张手相图。然后说:你猜这是 AI 做的,还是设计师做的?
说实话,测之前我以为结果是"Copilot已经很好了,其他两个是锦上添花"。测完之后我发现,Cursor和Windsurf不是在"补全代码"这个维度上跟Copilot竞争,它们是在重新定义"AI怎么帮程序员工作"这个问题。Copilot说:我帮你写得快一点。Cursor说:我帮你写,你负责把关。Windsurf说:我跟你一起写。三种理念没有对错,看你自己喜欢哪种工作方式。你呢?你现在用哪个工具?有
A2A协议的出现,让我感觉Agent开发的"野蛮生长阶段"快要结束了。就像当年Web开发从手写Socket到有了HTTP协议一样,Agent之间也需要一个通用的交流语言。Google这次做得很聪明——协议本身很轻量,没有强绑定到某个框架或云平台。你可以用Python写、用Go写、甚至用Node.js写,只要能解析JSON加上发HTTP请求就行。写胶水代码的时间至少省了70%。以前搞多Agent系统
写这篇文章的时候,我特意去翻了一下2017年的代码仓库。当时用LSTM做机器翻译,一个3000万句对的模型要训练两周。现在同样的任务,Transformer只需要一天半,效果还好得多。自注意力机制的厉害之处不是它算力强,而是它让信息不再需要经过"压缩-解压"的过程。每个位置直接跟所有位置对话,没有中间商赚差价。这才是替代RNN的根本原因。如果你也想深入理解Transformer,我建议不要只读论文
LoRA最让我佩服的地方不是它的数学推导,而是它把"模型训练"这件事的价格打了下来。从需要10万月租的训练集群,到一张4090就能跑——这不是渐进式改进,这是量级上的变革。如果你还没试过LoRA,找个周末跑一下。从HuggingFace的PEFT库开始,找个小模型(比如Llama-3.2-3B),拿100条你的数据试试。下篇准备写LoRA + DPO的组合实战,感兴趣的可以关注。
MoE 的核心思想其实很简单——别把所有鸡蛋放在一个篮子里。但实现起来确实有不少坑。说实话,我觉得 MoE 对普通开发者的意义不在于"从头训一个 MoE 模型",而是在于理解它之后,你能更好地用这些模型。知道它的路由机制,你就知道为什么某些提示词效果更好。知道负载均衡的设计,你就知道为什么某些场景下 MoE 模型的输出质量波动比 Dense 模型大。知道通信瓶颈在哪,你就知道为什么 MoE 模型的







