
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
这段代码实现了PDF → 结构化文本的自动解析、类型统计与内容展示,是文档内容预处理(如 RAG 检索、语义分块、摘要提取)中的标准前置步骤。
混合检索不是简单的“拼凑”,而是为了弥补单一检索模态的数学缺陷。稠密检索(Dense Retrieval / Vector Search)的缺陷:基于语义向量。它擅长理解“意思”,但对精确匹配非常弱。例如,搜索“错误码 8023”,向量模型可能会将其关联到“网络连接错误”,但不一定能精准匹配到含有“8023”这个具体数字的文档。稀疏检索(Sparse Retrieval / Keyword Sea
先把章节内容切块 → 建索引 → 用问题做向量检索拿到相关片段 → 把这些片段塞进 Prompt → 让 DeepSeek 在这些上下文内回答问题”。
数据准备模块是 RAG 系统效果的关键,它实现了**“小块检索,大块生成”的父子文本块策略,以兼顾检索的精确性和生成的上下文完整性**。
通过知识抽取(实体、关系、属性)、质量控制(置信度、冲突消解)和图谱融合(实体对齐)从原始数据中构建高质量的 KG。利用图查询语言(如 Cypher)进行邻域扩展、路径发现和约束过滤。(三元组/路径)与原始查询一同注入到 LLM 提示(Prompt)中。优势,实现了 RAG 技术从“信息检索”向“知识利用”的演进。防范数据泄露、模型中毒、针对检索模块的攻击。应支持答案的“金标准证据”被检回的比例。
定位:开源、云原生、分布式的向量数据库。核心优势高扩展性:存储计算分离,轻松应对百亿级数据。高可用:生产级容灾能力。生态丰富:LF AI & Data 顶级项目,集成 LangChain、LlamaIndex 等。与 FAISS/Chroma 的区别:FAISS 是本地库,适合原型/小规模;Milvus 是独立的服务端软件,适合大规模生产环境。Milvus 是构建大规模 RAG 和多模态搜索系统的
定位:开源、云原生、分布式的向量数据库。核心优势高扩展性:存储计算分离,轻松应对百亿级数据。高可用:生产级容灾能力。生态丰富:LF AI & Data 顶级项目,集成 LangChain、LlamaIndex 等。与 FAISS/Chroma 的区别:FAISS 是本地库,适合原型/小规模;Milvus 是独立的服务端软件,适合大规模生产环境。Milvus 是构建大规模 RAG 和多模态搜索系统的







