llmware:在笔记本上跑 RAG 和本地大模型

llmware 在 GitHub 上拿到 14.8K Star。

这个项目做了一件事:让你在本地设备上跑完整的 RAG 流程,从文档解析、知识库构建到模型推理,全程不需要调用外部 API。300 多个模型可以直接用,1B 到 9B 参数的小模型针对 RAG 做了专门优化。

1、它解决什么问题

做 RAG 的人都知道,真正的瓶颈往往不在模型本身,而在数据处理和部署环境。

企业文档格式五花八门,PDF 表格解析出来乱七八糟,Word 样式丢得一干二净。好不容易把文档处理好了,发现模型只能跑在云端,数据一上传,合规部门找上门。

llmware 把整条链路搬到了本地。文档解析、文本切分、向量嵌入、检索、推理,每一步都可以在你的笔记本上完成。对于那些对数据隐私有要求的企业场景,这基本是刚需。

正文顶部截图

2、核心架构

llmware 分两个部分。

第一是模型目录。300 多个模型,按用途分成几个系列:BLING 系列是 1B 到 5B 的轻量模型,适合在 CPU 上跑 RAG 问答;DRAGON 系列是 6B 到 9B 的生产级 RAG 模型;SLIM 系列专门做函数调用和多步骤 Agent 工作流。模型都做了 GGUF 量化,笔记本上直接能加载。

第二是 RAG 管线。从解析文档到建立知识库再到查询推理,全流程内置。支持 PDF、Word、Excel、PPT、HTML、图片、音频等十几种格式的解析。向量数据库方面,Milvus、ChromaDB、FAISS、Qdrant、PGVector 都能接,灵活搭配。

3、几个值得关注的能力

本地推理:支持 GGUF、OpenVINO、ONNXRuntime,还能在高通芯片的 NPU 上跑。Windows、Mac、Linux 都覆盖,包括 ARM64 设备。

Prompt with Sources:把检索结果直接注入 prompt,模型回答基于你提供的上下文。自带事实校验方法,可以检查模型输出是否有来源支撑。

Agent 和函数调用:用 SLIM 模型可以做情感分析、实体提取、主题分类、布尔判断等结构化输出。多个 SLIM 模型组合起来就是一个多步骤 Agent。

数据库可插拔:文本存储支持 SQLite(开箱即用)、MongoDB、Postgres;向量库支持 10 种。从笔记本到集群都能适配。

README区域截图

4、快速上手

安装:

pip3 install llmware

如果需要完整功能(包括更多格式解析和向量库支持):

pip3 install 'llmware[full]'

最小化 RAG 示例,三步跑通:

from llmware.library import Library
from llmware.retrieval import Query
from llmware.prompts import Prompt

# 创建知识库,导入文档
lib = Library().create_new_library("my_library")
lib.add_files("/path/to/my/files")

# 安装向量嵌入
lib.install_new_embedding(embedding_model_name="mini-lm-sbert", vector_db="chromadb")

# 加载模型,基于知识库问答
prompter = Prompt().load_model("llmware/bling-phi-3-gguf")
source = prompter.add_source_new_query(lib, query="my question", result_count=5)
responses = prompter.prompt_with_source("my question")

不装数据库也行,SQLite + ChromaDB 都是文件级的,零配置启动。

5、适合谁用

  • 在做 RAG 系统、需要把企业文档灌进向量库的开发者,尤其是对数据安全有要求的场景
  • 想在本地设备上跑大模型推理、不想依赖云服务的团队
  • 在搭 AI Agent、需要多模型协作处理文档的场景

的开发者,尤其是对数据安全有要求的场景

  • 想在本地设备上跑大模型推理、不想依赖云服务的团队
  • 在搭 AI Agent、需要多模型协作处理文档的场景
Logo

小龙虾开发者社区是 CSDN 旗下专注 OpenClaw 生态的官方阵地,聚焦技能开发、插件实践与部署教程,为开发者提供可直接落地的方案、工具与交流平台,助力高效构建与落地 AI 应用

更多推荐