logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

别再把 RAG 当向量库外挂:RAGFlow 的总体架构,给了一个更真实的答案

很多人对 RAG 的第一印象,仍然停留在一张非常简洁的架构图里:前端负责提问,后端负责调度,向量库负责检索,大模型负责回答。这张图当然没有错。它适合解释 RAG 的基本原理,也足够让人快速理解“检索增强生成”这件事。但问题在于,一旦系统从 Demo 走向真实业务,这张图就开始不够用了。

文章图片
#架构#人工智能#深度学习 +3
从单机到集群:用vLLM+Ray优雅地部署你的分布式推理集群DeepSeek-R1-0528(附:完整YAML配置文件)

对于小模型,单机单卡或者单机多卡就能满足推理的部署需求,比如Qwen-32B,模型权重文件大概64G,单个H20的显存有96G,所以单卡就可满足。

文章图片
#分布式#人工智能#python +2
RAG 检索到了还是答错:从一个线上事故讲透 RAG 数据工程全链路

某企业法务团队上线了一套合同问答系统。用户问:"渠道商季度返点的计算条件是什么?"系统返回了三段参考文档,生成了一段看起来完整的回答。法务审核时发现:引用的是 2024 年旧版渠道政策,而 2026 年新版政策已经在知识库里了——只是被排在第 8 条结果,没有进入最终送给模型的上下文窗口。

文章图片
#人工智能#架构#负载均衡 +2
AI的核心是算力,算力的核心是Token,那么Token到底是什么?

Token 是 AI 处理信息的最小原子单元,也是算力消耗、成本计价、产业竞争的核心标尺——算力的核心就是 Token 吞吐量。

文章图片
#人工智能#数据库#javascript +1
从普通 PM 到 AI PM,我观察了 100 人转型,只有这 3 条路走通了

这两年,我聊过很多想转 AI 的产品经理。有人做了 5 年传统 PM,突然发现岗位描述里全变成了 Agent、Copilot、RAG、多模态。

文章图片
#人工智能#决策树#大数据 +2
Harness Engineering全面解析:OpenAI、Anthropic、ThoughtWorks的三种答案

2026年2月,OpenAI发了一篇博客,悄悄重新定义了软件工程师的日常工作。标题只有两个词: **"Harness Engineering"** 。

文章图片
#数据库#faiss#milvus +2
LLM Agent外部化架构最新综述:记忆、技能、协议与Harness工程

最近刷到一篇来自上交大和中科院团队的综述,发表于2026年4月,题目叫 *Externalization in LLM Agents*,说的是一个很有意思的视角:**大模型Agent的核心进化,不是在把模型做得更大,而是在把认知负担一件一件地"搬出去"。

文章图片
#架构#负载均衡#运维 +2
RAG效果不理想,怎么优化?Recall太低,是Milvus的问题吗?

RAG 系统上线后答案出错,绝大多数团队的第一反应都是换更贵的模型、反复调试 prompt。但有时候,问题其实出在检索层,RAG根本没有召回正确的文档。而这种问题,如果没有量化评估,几乎很难被发现。

文章图片
#milvus#react.js#面试 +3
意图识别的五种设计:从关键词到 Classifier 到 LLM 自路由,这张决策树帮你一次选对

上一篇我们聊了 LLM 语义路由,用模型本身做意图分类,告别了关键词硬匹配的三种陷阱。不少同学问:那到底什么时候用关键词、什么时候上 LLM?只用 LLM 不是更香吗?

文章图片
#决策树#人工智能#大数据 +4
向量数据库选型:FAISS、Milvus、Pinecone到底怎么选?

他们以为向量数据库就是"把向量存进去、搜出来",选哪个差别不大。但真的上了生产才发现:选错了,要么搜得太慢,要么存得太贵,要么你需要的功能它不支持。

文章图片
#数据库#faiss#milvus +4
    共 2441 条
  • 1
  • 2
  • 3
  • 245
  • 请选择