logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

开发日志5-RAG知识库构建step2-切块

在之前清洗数据的时候我有意识地让数据比较规整,按照二级标题##、三级标题###等等划分,并且在用视觉模型VLM生成文本替换图片的时候用图表分析开始和结束标签包裹了内容,所以在这里按照层级划分基本能够满足知识点完整性的要求,图标的起始结束标签也可以作为切块的一句,保证一张图的描述不会从中间断开。,也就是块和块之间字符重叠为0,这主要是因为数据清洗后结构比较规整,加上切块逻辑的完善,一个chunk基本

文章图片
#python#RAG
开发日志4-RAG知识库构建step1-爬取数据+清洗

它用OpenAI的Vision模型(比如LLaVA)自动生成图片描述,把图片内容变成“可检索的文本”,然后把所有文本块和图片描述都转成向量(embedding),统一放进向量数据库。之后用户在与模型的交互中,系统会将用户的搜索内容编码成向量,并查询向量数据库,比较查询向量和数据库向量之间的相似度,并返回最相似的几条数据。爬取的数据中除了纯文本知识外,还包括图片,对于图片在上一步爬取时我们是将其UR

文章图片
#python#个人开发
到底了