logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

开源项目解读:AWorld Train,智能体强化学习训练框架深度剖析

AWorld Train框架通过动态代码生成等技术,实现了LLM Agent训练系统与RL框架的无缝对接。其核心创新点包括:1、采用代码生成替代对象序列化,将Agent配置"烘焙"为Python源码文件,解决分布式环境下的跨进程通信问题2、设计精细的response_mask机制,确保训练信号仅作用于模型决策行为,避免环境反馈干扰3、实现完整的Agent训练闭环,支持从数据合成到评估的全流程自动化

文章图片
开源项目解读:RAG-Anything 研报级深度拆解

本文介绍了RAG-Anything系统的核心技术,解决了传统RAG在多模态文档处理中的局限性。系统通过MinerU和Docling双解析引擎,将图表、表格、公式等非文本内容转化为知识图谱节点,并建立跨模态语义关联。创新性地采用模态感知实体化、双图索引和VLM二阶段查询等技术,显著提升了长文档多模态检索的准确性。工程实现上通过智能解析缓存、内容分离与切块策略优化处理效率,在科学问答、数据分析等任务上

文章图片
开源项目解读:multi-modal-rag-with-colpali 全栈多模态 RAG 工程深度拆解

系统通过三层向量池化策略(均值池化Prefetch+层次池化Rerank)解决了传统OCR方案在精度、布局语义和图表理解上的缺陷。核心技术亮点包括:1)将PDF页面渲染为图像直接处理,避免OCR损失;2)采用事件驱动架构和异步并发处理实现高效流水线;3)独创页级ID生成和向量存储策略,支持文档更新时零停机重建索引。系统特别设计了针对大规模文档集的优化方案,如多查询并行扩展、确定性UUID生成等,在

文章图片
开源项目解读:Microsoft Multi-Modal Customer Service Agent

介绍了一个基于Azure平台构建的多模态AI客服系统解决方案,该系统支持语音、电话和文字交互,具备以下核心特性:多模态处理。智能路由。实时性优化。知识管理。扩展性设计。该方案展示了生产级AI客服系统的完整实现,特别适合需要处理跨领域查询的实时语音交互场景。

文章图片
#microsoft
Enterprise RAG Challenge 冠军方案深度拆解:研报级学习笔记

本文深度拆解了Enterprise RAG Challenge冠军方案的技术细节。该方案在100份企业年报PDF(共15000页)的极端压力测试下,通过五层协同设计实现优异表现:1)Docling定制解析器实现无损信息提取;2)Per-Company独立FAISS索引缩小检索空间;3)Parent Document Retrieval平衡定位精度与上下文;4)LLM Reranking融合向量与语

文章图片
MosaicDoc:面向视觉丰富文档理解的大规模双语基准数据集深度解析

MosaicDoc数据集和DocWeaver流水线,解决了文档理解领域的关键挑战。针对现有数据集布局简单、语言单一、阅读顺序标注缺失等问题,MosaicDoc提供72,000+图像和620,000+双语问答对,专门针对报纸杂志等复杂布局文档。DocWeaver创新性地采用多智能体协作流水线,实现文档分解、复杂阅读顺序建模和高保真QA生成。核心技术包括HTML对齐方法、语义序列与布局层次混合策略,以

文章图片
智能体平台Dify的可观测性与MCP

本文介绍了Tracing集成架构的完整链路,从用户请求到监控上报的全流程。架构分为四个阶段:1)工作流执行阶段通过事件监听记录执行数据;2)追踪任务异步入队阶段实现业务与监控解耦;3)定时聚合阶段每5秒批量处理100个任务;4)Celery异步上报阶段完成数据持久化和Langfuse云端上报。关键设计包括非侵入式事件监听、分布式追踪支持(external_trace_id)、全局内存队列实现快速入

文章图片
智能体平台Dify的 分布式调度与系统吞吐优化

本文解析了基于Celery和Redis的异步任务分发完整链路,适用于GitHub Webhook触发代码审查工作流的场景。流程分为三个阶段:1) 同步接收请求并验证入队(毫秒级),包括配额检查、队列选择和任务存储;2) Worker异步处理(秒/分钟级),通过阻塞式拉取任务、执行LLM调用等耗时操作;3) 可选的结果查询阶段。关键实现包括非阻塞设计、状态追踪机制和基于订阅等级的队列路由策略,通过F

文章图片
智能体平台Dify的 模型接口与 Agent 架构深度解析

1、系统架构流程:从用户请求入口到初始化Agent实例,再到工具调用和结果整合的全链路。2、关键技术点:请求接收与Agent初始化过程历史对话组织与工具回调机制知识库检索工具的动态加载流式工具调用支持判断3、代码级实现细节:展示了BaseAgentRunner和FunctionCallAgentRunner的核心初始化逻辑,包含关键参数说明和功能注释

文章图片
#抽象工厂模式
ragflow项目源码解读之文本两阶段识别:ocr.py

本文介绍了OCR系统的两阶段架构设计及核心实现细节。系统采用检测-识别分离架构,TextDetector负责定位文本区域,TextRecognizer负责识别文本内容。核心类OCR协调整个流程,支持多GPU并行处理,包含智能排序、旋转识别等优化方法。TextDetector通过预处理、归一化和后处理实现高效文本检测。系统通过置信度过滤、阅读顺序恢复和竖排文字处理等技术创新,显著提升了OCR的准确率

文章图片
    共 32 条
  • 1
  • 2
  • 3
  • 4
  • 请选择