
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
本文介绍如何使用Docker、FastAPI和千问API搭建一个类似"豆包"的流式聊天应用。主要内容包括:Docker基础知识讲解(镜像、容器概念)和安装指南;Docker Compose多容器管理工具介绍;千问API的接入方法;项目实战部分涵盖前后端开发(实现SSE流式输出和聊天界面);详细的Docker配置说明;以及项目部署和常见问题解决方案。通过本教程,读者可以掌握容器化
本文提供了一个从零搭建RAG系统的实战教程,包含通义千问、Deepseek和本地大模型三种实现方案。教程采用Python+LangChain+Chroma技术栈,详细演示了文档加载、文本拆分、向量化存储等核心步骤。特别针对中文场景优化了文本分割策略,并提供了API调用和本地模型两种向量化方案。通过构建"2026年LPR利率"的问答系统,展示了RAG如何解决大模型知识更新的问题。

本文介绍如何使用Ollama在本地电脑上运行大语言模型,实现离线AI助手功能。详细讲解了Ollama在Windows、macOS和Linux系统的安装方法,以及常用命令操作(模型下载、运行和删除)。重点展示了如何通过Python调用本地模型API进行问答交互,并对比了本地模型与在线模型在响应速度、隐私保护和成本方面的优势。通过简单的代码示例,读者可以快速上手将大模型部署到个人电脑,打造专属AI助手

这篇文章介绍了如何让AI Agent具备实际工作能力,通过集成API和数据库实现实用功能。主要内容包括: RESTful API集成 - 教Agent像快递员一样处理数据(GET查订单/POST创建资源等),附商品查询和订单创建代码示例 GraphQL应用 - 让Agent能精准获取所需数据而非固定套餐 数据库连接 - 为Agent配备记忆仓库(SQL+Redis)存储用户偏好等数据 实时通信 -
这篇文章介绍了Embedding与向量化的概念及其在RAG系统中的关键作用,提供了两种向量化方案:在线通义千问API和本地BGE模型部署。主要内容包括: 通俗解释Embedding如何将文本转换为机器可读的数字向量 对比在线和本地两种向量化方案的优缺点 详细的环境准备和代码实现步骤 通义千问在线API的完整使用教程 本地BGE模型离线部署的实践指南 文章提供了可直接运行的代码示例,展示了向量生成过

本文介绍如何使用Docker、FastAPI和千问API搭建一个类似"豆包"的流式聊天应用。主要内容包括:Docker基础知识讲解(镜像、容器概念)和安装指南;Docker Compose多容器管理工具介绍;千问API的接入方法;项目实战部分涵盖前后端开发(实现SSE流式输出和聊天界面);详细的Docker配置说明;以及项目部署和常见问题解决方案。通过本教程,读者可以掌握容器化
大模型推理加速技术实战摘要 本文系统讲解了大模型推理加速的核心技术与实践方法。重点介绍了vLLM引擎及其革命性的PagedAttention机制,该技术通过分页式显存管理将显存利用率从50%提升至95%以上,实现3-5倍加速。文章详细对比了Ollama、vLLM和TensorRT-LLM三大工具的性能差异,其中vLLM凭借开箱即用和Python3.10完美兼容成为最优选择。实战部分提供了vLLM完
这篇文章介绍了如何让AI Agent具备实际工作能力,通过集成API和数据库实现实用功能。主要内容包括: RESTful API集成 - 教Agent像快递员一样处理数据(GET查订单/POST创建资源等),附商品查询和订单创建代码示例 GraphQL应用 - 让Agent能精准获取所需数据而非固定套餐 数据库连接 - 为Agent配备记忆仓库(SQL+Redis)存储用户偏好等数据 实时通信 -
RAG高阶检索与重排序技术精要 本文深入解析RAG系统中的检索与重排序核心技术,帮助开发者突破精度瓶颈。核心内容包括: 检索算法原理:详解余弦相似度(语义匹配)和BM25(关键词匹配)的底层逻辑,强调向量归一化对精度的影响 混合检索策略:通过权重调节(语义0.4-0.7/关键词0.3-0.6)适配不同场景,解决专业术语和长文本检索难题 重排序优化:对比三种重排序方案(大模型过滤/专用模型/云API

本文深入探讨向量数据库Chroma和FAISS的生产级优化策略。文章首先对比了暴力搜索(KNN)与近似最近邻搜索(ANN)的区别,重点解析了HNSW索引原理及其参数调优方法。通过详细对比Chroma与FAISS在索引类型、持久化、性能等方面的差异,帮助开发者根据场景选择合适的方案。实战部分提供了Chroma批量写入优化和FAISS的HNSW索引+GPU加速两种生产级实现方案,包含异常处理、索引备份








