logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

对于PDF解析,不同工具的对比分析

做这个对比分析,是为了更好地学习RAG文档解析环节。之前盲目地相信AI coding,没了解PDF解析原理,在批量解析PDF构建向量数据库后,通过检索发现并没有得到有效解析。用的工具是MinerU,进行版面分析,后退策略(若是MinerU不可用,现在看来根本没必要)使用PyMuPDF,在解析过程中一直反馈依赖安装问题,也就是magic-pdf一直报错(不存在,即使我已经安装了,但是因为版本原因读取

#人工智能#自然语言处理
对于PDF解析,不同工具的对比分析

做这个对比分析,是为了更好地学习RAG文档解析环节。之前盲目地相信AI coding,没了解PDF解析原理,在批量解析PDF构建向量数据库后,通过检索发现并没有得到有效解析。用的工具是MinerU,进行版面分析,后退策略(若是MinerU不可用,现在看来根本没必要)使用PyMuPDF,在解析过程中一直反馈依赖安装问题,也就是magic-pdf一直报错(不存在,即使我已经安装了,但是因为版本原因读取

#人工智能#自然语言处理
RAG学习笔记

从之前的实践来看,结构化解析的效果是明显强于常规的文件内容提取的。相对于常规的文件内容提取,结构化解析保留了文件的层级结构以及各个层级的标题信息,可以有效提升文档内容的召回率。常规 RAG 文件解析方案为了尽可能提升结构化解析能力,常规情况下会选择实现基础文件类型的结构化解析,其他文件尽可能转换为基础文件类型。而目前最常见适用于结构化解析的基础类型为 html 和 markdown。比如目前最常见

#学习
让AI读懂财报PDF(多模态RAG)-Datawhale夏令营 baseline学习笔记以及后续思考

baseline实现了什么?baseline的RAG系统工作流程:首先,使用 mineru_pipeline_all.py(MinerU,baseline一键式跑通没有使用这个,需要GPU,安装相关依赖有些麻烦)或 fitz_pipeline_all.py(PyMuPDF,处理速度相当快,baseline使用的是这个,该章节下也只说明使用此库的后续)解析PDF文档其次,将解析结果存储在 data_

#人工智能#学习
到底了