logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

基于“混合检索(向量 + BM25)+ SelfQuery 过滤 + 重排序优化”的RAG

文档预处理(1)原始文档构造:准备包含内容文本和元数据(如年份、领域、来源)的原始文档,元数据用于后续条件过滤。(2)文本切片:使用RecursiveCharacterTextSplitter按语义分割文档,优先按高优先级分隔符(如换行、句号)拆分,保留相邻片段的重叠内容(chunk_overlap),避免语义断裂,最终生成多个短文本片段(chunk)。混合检索(向量检索+BM25检索融合)(1)

#RAG
RAG相关

RAG(检索增强生成)流程,包含文档加载、切片(分块)、向量存储、检索排序、生成回答等完整步骤,并展示各环节输出结果。核心流程说明RAG 的核心逻辑是:先从文档中检索与查询相关的内容,再结合这些内容生成回答。步骤拆解为:文档加载 → 2. 文档切片(分块) → 3. 文本向量化 → 4. 检索相似文档 → 5. 生成回答步骤纯代码实现(本文)LangChain 实际实现文档加载仅支持字符串文档,无

#RAG
《Character-level convolutional networks for text classification》论文网络结构解读

1.数据比如有一条数据【x=“Simultaneous Tropical Storms are Very Rare”】.则把该句子的大写字母全部表示成小写,构建char字符集的词汇表如下(这里词汇表长度为70(69+1,即其他的不在词汇表的表示为0)):数据可以表示为x=70X1014 (高X宽,即70个特征,每个特征的长度为1014),该矩阵初始为0,反向依次遍历【x=“simultane...

(三)skearn-增量PCA

当要分解的数据集太大而无法放入内存时,增量主成分分析(IPCA)通常用作主成分分析(PCA)的替代。IPCA使用与输入数据样本数无关的内存量为输入数据建立低秩近似。它仍然依赖于输入数据功能,但更改批量大小可以控制内存使用量。import numpy as npimport matplotlib.pyplot as pltfrom sklearn.datasets import...

(三)朴素贝叶斯运用——文本分类

1、贝叶斯理论当我们有样本(包含特征和类别)的时候,我们非常容易通过p(x)p(y|x)=p(y)p(x|y)p(x)p(y|x)=p(y)p(x|y)p(x)p(y|x) = p(y)p(x|y)统计得到p(特征|类别) .即p(特征)p(类别|特征)=p(类别)p(特征|类别)p(特征)p(类别|特征)=p(类别)p(特征|类别)p(特征)p(类别|特征) = p(类别)p(特征|类别...

蒙特卡洛树搜索

蒙特卡洛树搜索的基本概念蒙特卡洛树搜索会多次模拟博弈,并尝试根据模拟结果预测最优的移动方案。蒙特卡洛树搜索的主要概念是搜索,即沿着博弈树向下的一组遍历过程。单次遍历的路径会从根节点(当前博弈状态)延伸到没有完全展开的节点,未完全展开的节点表示其子节点至少有一个未访问到。遇到未完全展开的节点时,它的一个未访问子节点将会作为单次模拟的根节点,随后模拟的结果将会反向传播回当前树的根节点并更新博弈树的..

(三)PyTorch学习笔记——softmax和log_softmax的区别、CrossEntropyLoss() 与 NLLLoss() 的区别、log似然代价函数

1、softmax函数 Softmax(x) 也是一个 non-linearity, 但它的特殊之处在于它通常是网络中一次操作. 这是因为它接受了一个实数向量并返回一个概率分布.其定义如下. 定义 x 是一个实数的向量(正数或负数都无所谓, 没有限制). 然后, 第i个 Softmax(x) 的组成是exp(xi)∑jexp(xj)exp⁡(xi)∑jexp⁡(xj)\frac{\exp...

信号处理入门

1、基本概念周期: 每个循环的时长,如上图,周期约为2.3ms频率: 即周期的倒数,其单位为每秒钟循环数,也称为赫兹(Hz),上图的型号频率大约为1/2.3*1000 = 439Hz波形:周期信号的形状

LSTM网络结构

1.介绍假设词向量长度为128,隐含层神经元个数为256。LSTM中引入3个门,即输入门、遗忘门、输出门;及其他组件:候选记忆细胞、记忆细胞。2.时间t时候:各个组件(3个门+候选记忆细胞、记忆细胞)如上图所示,对于每个组件有:(1)输入门:ItI_tIt​It=σ(XtWihI+Ht−1WhhI+bihI)I_t = \sigma (X_tW_{ih}^I+H_{t-1}W_{h...

(六)神经网络的参数计算

全连接的参数计算如图:(5*4+5)+(3*5+3)即第一层参数+第二层参数参数类型只有2种:w和bw的数量就是输入层到输出层之间的箭头数目,而b的数目等于每个输出神经元的数目(即不包括输入层的神经元),输入层的神经元数目即输入数据的特征维度数目,比如数据矩阵为2*4的矩阵X,2行代表两个样本数据,4列代表每个样本有4个属性特征值,所以经过神经网络的计算是依次取每行的数据进行计...

    共 18 条
  • 1
  • 2
  • 请选择