
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
打开任何一台开发者的电脑,Claude Code、OpenCode、Codex、Gemini CLI 这些 AI 编程助手都以同一种形态存在,即终端里一个可执行命令。在浏览器插件、桌面应用和 IDE 集成都已成熟的今天,头部 Agent 产品不约而同地选择了命令行接口(Command Line Interface,CLI)作为主分发形态。这不是历史惯性,而是 Agent 与外部系统协作模式的必然结
在前一章中,笔者完成了 Ollama 的安装与 CLI 验证。CLI 适合人机对话调试,对应用集成来说仍然不够直接:业务代码无法读取 CLI 进程的输出,也无法控制并发与超时。Ollama 真正向应用开放的能力,是常驻在 11434 端口的 HTTP 接口。本章把这条 HTTP 通道彻底走通,让读者在不依赖任何 SDK 的前提下,用 Python 的 requests 与 httpx 实现生成、对
如果读者曾因公司数据安全、网络延迟或调用成本,犹豫是否要把项目接入云端大模型,那么本章将给出一种本地化的解题路径。Ollama 把模型权重下载到本地磁盘,将推理过程封装为一个常驻进程,通过 HTTP 接口对外提供能力,使得在一台普通笔记本上跑起 LLM 与 Embedding 不再需要复杂的环境配置。本章先把开发机准备成可调用大模型的状态:安装运行时、拉取所需模型、用 CLI 验证生成与对话效果。
到目前为止,知识库、检索工具、MCP 客户端都已经就绪,但仍缺少一个面向最终用户的入口。本章用 FastAPI 把整条 RAG 链路串起来:接收前端发来的自然语言问题,调用 MCP 工具检索相关工单,构造检索增强提示词喂给 Ollama,再用 SSE 把模型的流式回答推送到前端。完成本章后,读者将拥有一个可被任意前端调用的 /llm/rag 接口,并理解 SSE 协议为何特别适合本地 LLM 这种
走到本章,读者已经在前面九章里把所有零件分别讲清楚。但分头跑通与整套跑通是两回事:Ollama、MCP Server、FastAPI、Next.js 四个进程需要按正确顺序启动,相互的端口、依赖、模型必须就位。本章把全栈联调的步骤、常见故障、调试技巧一并整理,作为读者跑通本书项目的最后一道指南。完成本章后,读者将拥有一份可重复使用的本地部署 Checklist,并具备在任意环境下迅速定位 RAG
后端已经把 RAG 能力打包成一个 SSE 接口,最后一公里是让最终用户在浏览器中流畅地体验它。本章用 Next.js 实现一个最小可用的流式聊天界面:把用户问题通过 EventSource 发给后端,按事件类型把检索状态、参考工单与模型回答分别渲染出来。完成本章后,读者将拥有一个能跑通的电商工单问答前端,并理解 EventSource API 如何把 SSE 协议消化为浏览器中熟悉的事件回调。
切好的文本块还停留在字符串状态,无法直接用于相似度检索。要让机器判断“用户问题”与“知识块”之间是否相关,必须先把它们映射到同一个数学空间,再用距离或夹角衡量接近程度。完成这一映射的模型叫嵌入模型,输出结果通常是几百到几千维的浮点向量。本章基于配套源码中的 test_embedding_ollama.py,讲清楚 Ollama 嵌入接口怎么调用、返回的向量如何理解、余弦相似度如何计算。完成本章后,
掌握了 Ollama HTTP 接口之后,读者已经可以让本地大模型回答任何问题。但模型只能基于训练数据回答,对私有知识、最新事件、企业内部文档一无所知。检索增强生成的思路是先把外部资料拆成可检索的小块,存入向量数据库,回答时按相关性把若干小块取出,与问题一起交给模型。这条链路的第一步就是文本切片。本章解释切片的必要性、常见策略与代码实现,使用配套源码中的 test_text_split.py 作为
如果读者曾因公司数据安全、网络延迟或调用成本,犹豫是否要把项目接入云端大模型,那么本章将给出一种本地化的解题路径。Ollama 把模型权重下载到本地磁盘,将推理过程封装为一个常驻进程,通过 HTTP 接口对外提供能力,使得在一台普通笔记本上跑起 LLM 与 Embedding 不再需要复杂的环境配置。本章先把开发机准备成可调用大模型的状态:安装运行时、拉取所需模型、用 CLI 验证生成与对话效果。
本文介绍了使用Loguru构建结构化日志系统的方法,适合后端开发者和运维工程师。主要内容包括:1) Loguru基础配置,实现控制台和文件输出;2) 日志使用示例,包括不同级别日志记录和异常处理;3) FastAPI请求日志中间件实现;4) 结构化日志技巧,通过bind和contextualize添加上下文信息。文章还预告了下篇将探讨生产环境配置与安全管理。







