
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
纠正性检索增强生成(Corrective Retrieval-Augmented Generation,CRAG)是一种先进的自然语言处理技术,旨在提高检索的生成方法的鲁棒性和准确性。在 CRAG 中引入了一个轻量级的检索评估器来评估检索到的文档的质量,并根据评估结果触发不同的知识检索动作,以确保生成结果的准确性。检索文档:首先,基于用户的查询,系统执行检索操作以获取相关的文档或信息。评估检索质量

最终生成适用于下游自然语言处理(NLP)任务(如模型预训练、知识库构建、RAG 数据源)的干净语料。它专注于解决原始维基数据中包含大量噪声(如 HTML 标签、维基标记、模板信息)的问题。为了让长文本适用于有长度限制的模型,需要将清洗后的文本切分成合适的段落。该脚本主要通过命令行参数接收输入,并输出一个处理后的文件。这是整个脚本技术含量最高的部分。来清除维基百科特有的标记语言和格式噪声。以下是脚本
但是对于 LLM 来说,如果使用普通的 prompt 来约束输出内容的格式与规范,因为 LLM 的特性,很难保证输出格式符合特定的需求,所以可以考虑使用 函数回调 来实现,即设定一个 虚假的函数,告诉 LLM,这个函数有对应的参数,让 LLM 强制调用这个函数,这个时候 LLM 就会输出函数的调用参数,从而保证输出的统一性。而且不仅仅是规范化输出,函数回调的作用还远远不仅如此,在下一章的课时中,我

要想使用向量数据库的相似性搜索,存储的数据必须是向量,那么如何将高维度的文字、图片、视频等非结构化数据转换成向量呢?Embedding 模型是一种在机器学习和自然语言处理中广泛应用的技术,它旨在将高纬度的数据(如文字、图片、视频)映射到低纬度的空间。Embedding 向量是一个 N 维的实值向量,它将输入的数据表示成一个连续的数值空间中的点。这种嵌入可以是一个词、一个类别特征(如商品、电影、物品

是最常见的表格数据格式。CSVLoader和。从 SQL 数据库读取数据需要使用LlamaIndex 的 DatabaseReader或SQLAlchemy。数据库方案特别适合从已有的数据库系统中读取表格数据。Camelot是一个专门用于从 PDF 中提取表格的 Python 库。它提供了一个简洁的 API,能够将 PDF 表格转换为 pandas DataFrame。pdfplumber是一个轻
衡量生成答案中的信息是否完全来自检索到的上下文(无幻觉信息)。用于衡量生成的答案是否基于给定的上下文,确保答案的可靠性。计算方法是将答案拆解为一组声明,然后判断每个声明能否从原始背景中得出,忠实度评分 = 可以从上下文中得到的观点数量 / 生成答案中的总观点数量。
自适应RAG技术解析:智能检索新范式 自适应RAG技术通过智能查询分类和定制化检索策略,解决了传统RAG"一刀切"检索的局限性。该系统包含四个核心组件:查询分类器识别用户需求类型(事实/分析/观点/上下文),自适应检索策略库为每类查询提供专属检索方案,LLM集成增强各环节处理效果,以及GPT模型生成适配回答。实现流程分为查询分类、策略执行、结果排序和回答生成四步,针对不同类型查

【代码】langchain从入门到精通(四)——Model组件及使用技巧。

在这种情况下,我们真正想要做的是先将原始文档拆分成较大的块(例如 1000-2000 个 Token),然后将其拆分为较小块,接下来索引较小块,但是检索时返回较大块(非原文档)。输出内容会返回完整的文档片段,而不是拆分后的片段(但是在向量数据库中存储的是分割后的片段)中,只需要传递多一个 父文档分割器 即可,其他流程无需任何变化,更新后的部分代码如下。在上面的示例中,我们使用拆分的文档块检索数据原

创建自定义工具的3种技巧与使用场景在使用 函数调用 或者创建 智能体 时,我们需要提供 工具列表,以便大语言模型可以使用这些工具,虽然 LangChain 内部集成了大量的工具和工具包,但并不一定适合我们的业务场景,更多场合下我们会使用自定义工具,在 LangChain 中提供了 3 种构建自定义工具的技巧:@tool 装饰器、StructuredTool.from_function()类方法、B








