llmware：在笔记本上跑 RAG 和本地大模型

mofangcode820

65人浏览 · 2026-06-21 17:07:06

mofangcode820 · 2026-06-21 17:07:06 发布

文章目录

llmware：在笔记本上跑 RAG 和本地大模型

llmware：在笔记本上跑 RAG 和本地大模型

llmware 在 GitHub 上拿到 14.8K Star。

这个项目做了一件事：让你在本地设备上跑完整的 RAG 流程，从文档解析、知识库构建到模型推理，全程不需要调用外部 API。300 多个模型可以直接用，1B 到 9B 参数的小模型针对 RAG 做了专门优化。

1、它解决什么问题

做 RAG 的人都知道，真正的瓶颈往往不在模型本身，而在数据处理和部署环境。

企业文档格式五花八门，PDF 表格解析出来乱七八糟，Word 样式丢得一干二净。好不容易把文档处理好了，发现模型只能跑在云端，数据一上传，合规部门找上门。

llmware 把整条链路搬到了本地。文档解析、文本切分、向量嵌入、检索、推理，每一步都可以在你的笔记本上完成。对于那些对数据隐私有要求的企业场景，这基本是刚需。

正文顶部截图

2、核心架构

llmware 分两个部分。

第一是模型目录。300 多个模型，按用途分成几个系列：BLING 系列是 1B 到 5B 的轻量模型，适合在 CPU 上跑 RAG 问答；DRAGON 系列是 6B 到 9B 的生产级 RAG 模型；SLIM 系列专门做函数调用和多步骤 Agent 工作流。模型都做了 GGUF 量化，笔记本上直接能加载。

第二是 RAG 管线。从解析文档到建立知识库再到查询推理，全流程内置。支持 PDF、Word、Excel、PPT、HTML、图片、音频等十几种格式的解析。向量数据库方面，Milvus、ChromaDB、FAISS、Qdrant、PGVector 都能接，灵活搭配。

3、几个值得关注的能力

本地推理：支持 GGUF、OpenVINO、ONNXRuntime，还能在高通芯片的 NPU 上跑。Windows、Mac、Linux 都覆盖，包括 ARM64 设备。

Prompt with Sources：把检索结果直接注入 prompt，模型回答基于你提供的上下文。自带事实校验方法，可以检查模型输出是否有来源支撑。

Agent 和函数调用：用 SLIM 模型可以做情感分析、实体提取、主题分类、布尔判断等结构化输出。多个 SLIM 模型组合起来就是一个多步骤 Agent。

数据库可插拔：文本存储支持 SQLite（开箱即用）、MongoDB、Postgres；向量库支持 10 种。从笔记本到集群都能适配。

README区域截图

4、快速上手

安装：

pip3 install llmware

如果需要完整功能（包括更多格式解析和向量库支持）：

pip3 install 'llmware[full]'

最小化 RAG 示例，三步跑通：

from llmware.library import Library
from llmware.retrieval import Query
from llmware.prompts import Prompt

# 创建知识库，导入文档
lib = Library().create_new_library("my_library")
lib.add_files("/path/to/my/files")

# 安装向量嵌入
lib.install_new_embedding(embedding_model_name="mini-lm-sbert", vector_db="chromadb")

# 加载模型，基于知识库问答
prompter = Prompt().load_model("llmware/bling-phi-3-gguf")
source = prompter.add_source_new_query(lib, query="my question", result_count=5)
responses = prompter.prompt_with_source("my question")

不装数据库也行，SQLite + ChromaDB 都是文件级的，零配置启动。

5、适合谁用

在做 RAG 系统、需要把企业文档灌进向量库的开发者，尤其是对数据安全有要求的场景
想在本地设备上跑大模型推理、不想依赖云服务的团队
在搭 AI Agent、需要多模型协作处理文档的场景

的开发者，尤其是对数据安全有要求的场景

想在本地设备上跑大模型推理、不想依赖云服务的团队
在搭 AI Agent、需要多模型协作处理文档的场景

龙虾开发者社区

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地，聚焦技能开发、插件实践与部署教程，为开发者提供可直接落地的方案、工具与交流平台，助力高效构建与落地 AI 应用

更多推荐

MetaGPT：让 AI Agent Harness Engineering 模拟软件公司运作

核心概念定义核心作用AI Agent具备自主感知、决策、行动能力的大语言模型实例，拥有自己的角色设定、记忆、工具调用能力协作体系中的执行单元多Agent协作多个AI Agent按照预设的规则、流程、权责，共同完成同一个复杂任务的机制解决单个Agent能力、上下文、角色的瓶颈把人类行业的成熟SOP、规范、最佳实践，转化为AI Agent可以理解和执行的数字化规则的工程方法让多Agent的协作符合人类