
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
MiroThinker采用单智能体ReAct框架,以“思考(T)-行动(A)-观察(O)”三元组构成交互轨迹,形成迭代循环。图左侧三大工具:执行环境(执行Shell命令和Python代码等)、文件管理、信息检索:包含谷歌搜索工具(返回结构化结果)和网页抓取工具(结合轻量LLM提取任务相关信息)。

多模态大模型在“看不清”文字时瞎编答案,称为“OCR幻觉”,如下图,主要有几点:(1)预训练阶段缺乏相关数据:关键信息提取(KIE)数据以及退化视觉场景的清晰标注显著不足,限制了模型处理复杂视觉输入的能力。指令微调阶段忽视退化场景:现有研究通常假设 OCR 任务输入为非退化图像,导致模型缺乏处理真实世界退化文档(如模糊、遮挡、低对比度)所需的推理能力。下面来看看一个思路。供参考。

文档解析这条赛道真卷,《》目前整体技术路线分三类:pipline式、两阶段式和端到端。在前面,也看了《下面再来看一个两阶段方案,由layout+VLM组成-PaddleOCR-VL-0.9B。

记录一下Qwen-VL系列多模态大模型技术演进-模型架构、训练方法、数据细节,仅供参考。

以上相关技术汇聚就是目前比较火的“GUI Agent”,顺藤摸瓜的翻到了一篇关于移动端GUI Agent训练框架-(也是用于Agent Auto GLM训练的框架)。下面来看看都解决了什么问题。视觉语言模型(VLM)(如 Qwen2.5-VL、GLM-4.1V)让 “零样本交互网页 / 移动界面” 的 GUI Agent成为研究热点。这类Agent可通过感知屏幕截图 + 解析 UI 结构,自主执行

Agentar-Fin-R1 的开发pipline可概括为五个闭环阶段,每一阶段都有明确输入、处理逻辑和输出。

PathRAG 也是一种新型 Graph-based RAG 方法,通过检索索引图中的关键关系路径,减少噪声并优化 LLM 提示。其核心创新在于基于流的剪枝算法和路径为基础的提示策略,特别适用于捕捉复杂数据集中的关系。(其实可以看做三种Graph-based RAG对比总结(PathRAG、GraphRAG、LightRAG):•:通过从索引图中检索关键的关系路径来减少冗余信息。PathRAG使用

qwen3炼丹真是全是技巧,下面来看看,仅供参考。

来看一个PPT生成思路:PPTAgent。传统的PPT生成方法通常使用端到端的文本生成范式,这种方法。PPTAgent 采用了一种基于编辑的生成范式,解决处理方面的挑战。传统方法的每个幻灯片SSi1∑neifC其中,n表示幻灯片上的元素数量,C表示由章节和图形组成的源内容。每个元素ei由其类型、内容和样式属性(如边框、大小、位置等)定义。与传统的生成方法相比,PPTAgent 采用了一种基于

本文仅看下这个,因为从之前介绍的多个模型如:《》、《》等多模态大模型及《》的结论看,原生分辨率能够有效提升多模态大模型的性能,并广泛得到使用,InternVL3.5仍然使用着动态高分辨率,但这会带来token数量的增加,从而影响推理效率,但这次增加了一个,让其可动态选择视觉 token 的最小分辨率,从而实现更好的推理效率。








