从零开始掌握大模型：定义、发展历程与知识库融合实战

本文介绍了大模型的定义及从2005年到2023年的发展历程，探讨了知识库的概念及其与大模型的互补性。通过结合LangChain和LangChain-Chatchat框架，文章详细阐述了如何构建本地知识库问答系统，包括技术路线和实现原理。这种融合方法能有效提高大模型的事实准确性、领域特异性和可解释性，为解决大模型静态性和知识局限性提供了实用解决方案。

IT猫仔

663人浏览 · 2025-09-24 13:56:01

IT猫仔 · 2025-09-24 13:56:01 发布

前排提示，文末有大模型AGI-CSDN独家资料包哦！

大模型定义及发展历程

广义上大模型是指参数规模庞大、结构复杂的深度学习模型，具备涌现能力、通用能力，能够处理复杂的下游任务，而狭义上的大模型通常是指参数规模在一百亿（10B）以上，使用大规模的训练数据，具有良好的涌现能力，并在各种任务上达到较高性能水平的模型。

《A Survey of Large Language Models》

作为一种主要的语言理解和生成方式，语言建模在过去二十年中得到了广泛研究。从2005年起，CNN为代表的传统神经网络模型开始占据主导地位。2013年自然语言处理模型Word2Vec诞生。2017年，Google提出 Transformer架构，奠定了大模型预训练算法架构的基础。次年GPT-1和BERT相继提出，预训练大模型成为自然语言处理领域的主流。2020年，模型参数规模达1750亿的GPT3提出，其在零样本学习任务上实现了巨大性能提升。截至到2023年，中国发布的10亿以上参数大模型超过 79个， "百模大战” 态势初步形成。

知识库的主要概念

在计算机科学中，知识库由一组句子构成(这里的“句子”与英语和其他自然语言的句子有关，但不完全相同)。每个句子都是用知识表示言语表达的，代表了对世界的某种断言。知识库中必须有添加新句子的方法和查询已知句子的方法。这两种操作都可能涉及推理，即从旧句子推导出新句子。推理必须遵守这样一个要求，即当人们向知识库提出一个问题时，答案应该从之前已经告诉知识库的内容中推导出来。它是一种用于存储计算机系统使用的复杂结构化数据的技术。该术语的最初使用与专家系统有关，专家系统是第一个基于知识的系统。

通用的基于知识的代理

知识库与大模型融合

大模型会“停留”在某个特定的时间，但知识库可以将它们带入现在

大模型和知识库都是存储、处理和利用知识的重要方式。然而，大模型是静态的，缺乏最新信息，且更新成本极高；其知识通用性强，但缺乏特定领域的深度；大模型在得出结论时，类似于“黑匣子”，用户无法知道其参考了哪些来源。而知识库则更易于更新、修改和迁移知识；其知识领域性更强，结构清晰，查询简单，且易于理解。

通过将知识库与大模型结合使用，可以通过prompt从知识库中提供可靠和最新的信息，显著提高大模型的事实准确性、领域特异性和可解释性。

融合实例

Langchain简介

LangChain是一个用于开发由语言模型驱动的应用程序的框架。它的主要功能包括调用语言模型、整合不同数据源到语言模型的交互中，以及允许语言模型与运行环境进行交互。LangChain提供了一系列模块来实现这些功能，主要包括Modules、Prompt、Memory、Indexes、Chain、Agents和Callbacks。这些模块协同工作，为开发由语言模型驱动的应用程序提供了灵活且强大的框架，使得开发变得更加容易和高效。LangChain的主要应用场景包括文档问答、个人助理功能、查询表格数据、与API交互以获取最新信息，并能从文本中提取结构化信息等。

Langchain-chatchat简介

LangChain-Chatchat是一种利用langchain思想实现的基于本地知识库的问答应用，目标期望建立一套对中文场景与开源模型支持友好，可离线运行的知识库问答解决方案。项目支持市面上主流的开源LLM、嵌入模型与向量数据库，可实现使用开源模型离线私有部署。

基于Langchain-chatchat构建本地知识库问答系统

本地知识库问答的技术路线

项目实现原理如图所示，过程包括加载文件 -> 读取文本 -> 文本分割 -> 文本向量化 -> 问句向量化 -> 在文本向量中匹配出与问句向量最相似的top k个 -> 匹配出的文本作为上下文和问题一起添加到prompt中 -> 提交给LLM生成回答。

知识库问答示例

在本地知识库问答应用中，首先用户输入问题。然后，系统会在向量数据库中搜索与问题相关的文本，并将这些匹配到的文本作为上下文信息，结合用户的问题一起构建一个prompt。接下来，这个构建好的prompt会被提交给语言模型（LLM），以生成最终的回答。
读者福利：倘若大家对大模型感兴趣，那么这套大模型学习资料一定对你有用。

针对0基础小白：