m0_61134850 个人主页

@m0_61134850

m0_61134850

2023-07-31 16:23:12 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

解析可观测性：RAG 和 Agent 入库不能只看“解析成功”

文章摘要 AI Agent与RAG工程正从模型调用层下沉到工具链可观测性，强调文档解析需关注结构化质量而非仅任务成功。MinerU作为智能文档解析平台，支持多格式转换并提供全链路追踪，核心观点包括：1）需交付包含来源、参数、失败页等的trace而不仅是Markdown；2）RAG效果上限取决于入库前的元素级结构化质量；3）需建立"可观测入库账本"以实现生产排障。文章对比了各类解析方案的适用场景，并

#人工智能

解析可观测性：RAG 和 Agent 入库不能只看“解析成功”

#人工智能

为什么引用关系会成为科研 Agent 的下一层数据接口

科研Agent的核心能力不仅在于首次检索文献，更在于能否基于引用关系网络(references/citations/related works)持续扩展证据链。当前学术检索系统将引用关系置于展示层，而新型工具如Sciverse将其转化为可编程接口，使Agent能串联元数据检索、关系扩展和原文验证。这种设计让科研工作流从"单次搜索"升级为"证据链展开"，支持综述撰写、争议追踪等复杂任务，同时减少大模

#人工智能 #深度学习 #搜索引擎 +3

解析回归集：RAG 和 Agent 上线前，先把表格、公式、版面测清楚

本文探讨文档解析技术在RAG、Agent、MCP Server及科研数据管线中的关键作用，提出基于MinerU的解析回归集方法，强调生产级解析需覆盖OCR、表格、公式、版面还原等核心能力。文章指出，当前文档解析已从“功能可用”转向“版本迭代敏感”阶段，需通过多维度评测（如OCR准确性、表格提取、公式识别）确保生产系统稳定性。作者建议构建包含失败样本的回归集，覆盖科研论文、扫描件等复杂场景，并通过C

#回归 #数据挖掘 #人工智能 +1

为什么科研 Agent 找到论文还不够，真正关键是读上下文

科研AI Agent的核心瓶颈正从“检索能力”转向“证据验证能力”。当前科研RAG（检索增强生成）的关键不在于能否找到文献片段，而在于能否将片段关联回原文、验证引用关系并形成可复核的证据链。Sciverse作为面向科研Agent的数据层，通过分层接口设计（检索、元数据筛选、原文核验、引用扩展、图表获取）解决了这一问题，使AI不仅能搜索文献，还能在上下文中验证证据。这一架构更贴近科研工作流的需求，确

#人工智能 #搜索引擎 #全文检索 +2

为什么科研 Agent 找到论文还不够，真正关键是读上下文

#人工智能 #搜索引擎 #全文检索 +2

MCP 解析网关：文档要先变成 Agent 可调用资源

MCP解析网关：将文档转化为结构化Agent资源摘要： MCP Server正从工具接入转向工具边界设计。针对文档解析需求，PDF、Office等文件不应仅转为文本，而需转化为Agent可调用、审计和入库的结构化资源。解析网关需承担输入治理、文档理解、结构输出等职责，交付Markdown、JSON等结构化数据。建议将解析工具收敛为稳定接口（如parse_document），保留元素级结构以提升R

#人工智能 #机器学习 #大数据

Agent 时代，PDF 解析要交付的不只是 Markdown，而是可追溯证据

文章摘要 AI Agent时代下，文档解析正从简单OCR升级为包含表格、公式、图片等元素的结构化数据工程。本文提出一套面向科研数据链路的证据级解析验收方案，强调Markdown输出只是起点，真正的系统能力在于构建包含来源页码、元素类型、解析模型等信息的完整证据链。通过MinerU解析引擎和MCP规范，实现文档元素级结构化、Agent可调用能力，并建立四层质量验收体系。实验方案设计了覆盖科研论文、企

#人工智能 #大数据 #算法

Agent 时代，PDF 解析要交付的不只是 Markdown，而是可追溯证据

#人工智能 #大数据 #算法

Agent 时代，PDF 解析要交付的不只是 Markdown，而是可追溯证据

#人工智能 #大数据 #算法

共 132 条

请选择