
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
RAG高阶检索与重排序技术精要 本文深入解析RAG系统中的检索与重排序核心技术,帮助开发者突破精度瓶颈。核心内容包括: 检索算法原理:详解余弦相似度(语义匹配)和BM25(关键词匹配)的底层逻辑,强调向量归一化对精度的影响 混合检索策略:通过权重调节(语义0.4-0.7/关键词0.3-0.6)适配不同场景,解决专业术语和长文本检索难题 重排序优化:对比三种重排序方案(大模型过滤/专用模型/云API

本文深入探讨向量数据库Chroma和FAISS的生产级优化策略。文章首先对比了暴力搜索(KNN)与近似最近邻搜索(ANN)的区别,重点解析了HNSW索引原理及其参数调优方法。通过详细对比Chroma与FAISS在索引类型、持久化、性能等方面的差异,帮助开发者根据场景选择合适的方案。实战部分提供了Chroma批量写入优化和FAISS的HNSW索引+GPU加速两种生产级实现方案,包含异常处理、索引备份

本文深入探讨Embedding向量化的进阶优化策略,聚焦高维向量治理与生产级落地。核心内容包括:1) 解析向量空间语义表征原理,对比不同相似度计算方法;2) 提出高维向量优化方案,包括动态降维和归一化处理;3) 比较云端通义千问与本地BGE模型的适用场景;4) 给出4大生产级优化方案:文本预处理、通义千问参数调优、BGE模型微调及向量库性能优化;5) 提供通义千问异步版和本地优化版两种生产级代码实

这篇文章介绍了Embedding与向量化的概念及其在RAG系统中的关键作用,提供了两种向量化方案:在线通义千问API和本地BGE模型部署。主要内容包括: 通俗解释Embedding如何将文本转换为机器可读的数字向量 对比在线和本地两种向量化方案的优缺点 详细的环境准备和代码实现步骤 通义千问在线API的完整使用教程 本地BGE模型离线部署的实践指南 文章提供了可直接运行的代码示例,展示了向量生成过

本文提供了一个从零搭建RAG系统的实战教程,包含通义千问、Deepseek和本地大模型三种实现方案。教程采用Python+LangChain+Chroma技术栈,详细演示了文档加载、文本拆分、向量化存储等核心步骤。特别针对中文场景优化了文本分割策略,并提供了API调用和本地模型两种向量化方案。通过构建"2026年LPR利率"的问答系统,展示了RAG如何解决大模型知识更新的问题。

本文深入解析了LangChain的Memory系统如何为AI Agent赋予记忆能力,实现连贯的多轮对话。主要内容包括: 介绍了LangChain的两种记忆类型:短期记忆(ConversationBufferMemory)和长期记忆(ConversationSummaryMemory) 详细演示了如何将Memory集成到Agent中,通过天气查询示例展示上下文记忆功能 讲解了使用Structure

在 AI Agent 的学习旅程中,定期复盘和强化实践至关重要。本文围绕 Day7 的学习任务展开,通过复盘本周在大模型 API、参数以及提示工程技巧方面的学习内容,整理实用的 Prompt 模板库,并创建一个 “Prompt 生成器” 来综合提升 Prompt 编写能力。这不仅有助于巩固所学知识,还能为实际应用提供更高效的支持

今天我们把过去一周的知识全部融合在一起,打造了一个功能强大、完全离线的本地轻量Agent。它:✅ 基于LangChain + Ollama,离线运行✅ 拥有丰富的工具(天气、计算器、时间、文件操作、随机数等)✅ 具备记忆(摘要记忆,节省token)✅ 有友好的命令行交互界面✅ 经过参数优化,响应速度更快。

摘要:本文介绍如何使用LangChain和Ollama搭建完全离线的AI助手,解决在线模型依赖网络、隐私泄露等问题。通过配置LangChain连接本地Ollama模型(如Qwen 7B),创建支持工具调用(计算器、时间查询)的Agent,并优化响应速度。文章详细展示了环境准备、工具定义、Agent构建及性能优化步骤,帮助开发者打造安全高效的本地AI应用。

本文介绍如何使用Ollama在本地电脑上运行大语言模型,实现离线AI助手功能。详细讲解了Ollama在Windows、macOS和Linux系统的安装方法,以及常用命令操作(模型下载、运行和删除)。重点展示了如何通过Python调用本地模型API进行问答交互,并对比了本地模型与在线模型在响应速度、隐私保护和成本方面的优势。通过简单的代码示例,读者可以快速上手将大模型部署到个人电脑,打造专属AI助手








