丝竹青云个人主页

@Nature_park

丝竹青云

2023-08-20 11:50:07 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

datawhale 组队学习 RAG技术全栈指南task2打卡

这段代码实现了PDF → 结构化文本的自动解析、类型统计与内容展示，是文档内容预处理（如 RAG 检索、语义分块、摘要提取）中的标准前置步骤。

#学习 #前端 #css

datawhale 组队学习 RAG技术全栈指南task4打卡

混合检索不是简单的“拼凑”，而是为了弥补单一检索模态的数学缺陷。稠密检索（Dense Retrieval / Vector Search）的缺陷：基于语义向量。它擅长理解“意思”，但对精确匹配非常弱。例如，搜索“错误码 8023”，向量模型可能会将其关联到“网络连接错误”，但不一定能精准匹配到含有“8023”这个具体数字的文档。稀疏检索（Sparse Retrieval / Keyword Sea

#学习

datawhale 组队学习 RAG技术全栈指南task1打卡

先把章节内容切块 → 建索引 → 用问题做向量检索拿到相关片段 → 把这些片段塞进 Prompt → 让 DeepSeek 在这些上下文内回答问题”。

#学习

datawhale 组队学习 RAG技术全栈指南task5打卡

数据准备模块是 RAG 系统效果的关键，它实现了**“小块检索，大块生成”的父子文本块策略，以兼顾检索的精确性和生成的上下文完整性**。

#学习 #人工智能 #数据库

datawhale 组队学习 RAG技术全栈指南task6打卡

通过知识抽取（实体、关系、属性）、质量控制（置信度、冲突消解）和图谱融合（实体对齐）从原始数据中构建高质量的 KG。利用图查询语言（如 Cypher）进行邻域扩展、路径发现和约束过滤。（三元组/路径）与原始查询一同注入到 LLM 提示（Prompt）中。优势，实现了 RAG 技术从“信息检索”向“知识利用”的演进。防范数据泄露、模型中毒、针对检索模块的攻击。应支持答案的“金标准证据”被检回的比例。

#学习

datawhale 组队学习 RAG技术全栈指南task3打卡

定位：开源、云原生、分布式的向量数据库。核心优势高扩展性：存储计算分离，轻松应对百亿级数据。高可用：生产级容灾能力。生态丰富：LF AI & Data 顶级项目，集成 LangChain、LlamaIndex 等。与 FAISS/Chroma 的区别：FAISS 是本地库，适合原型/小规模；Milvus 是独立的服务端软件，适合大规模生产环境。Milvus 是构建大规模 RAG 和多模态搜索系统的

#学习

datawhale 组队学习 RAG技术全栈指南task3打卡

#学习

到底了