logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

MiroThinker 研究智能体数据集构建、三阶段渐进式训练方法

MiroThinker采用单智能体ReAct框架,以“思考(T)-行动(A)-观察(O)”三元组构成交互轨迹,形成迭代循环。图左侧三大工具:执行环境(执行Shell命令和Python代码等)、文件管理、信息检索:包含谷歌搜索工具(返回结构化结果)和网页抓取工具(结合轻量LLM提取任务相关信息)。

文章图片
#人工智能#算法#机器学习
GRPO强化学习缓解多模态大模型OCR任务的幻觉思路及数据生成思路

多模态大模型在“看不清”文字时瞎编答案,称为“OCR幻觉”,如下图,主要有几点:(1)预训练阶段缺乏相关数据:关键信息提取(KIE)数据以及退化视觉场景的清晰标注显著不足,限制了模型处理复杂视觉输入的能力。指令微调阶段忽视退化场景:现有研究通常假设 OCR 任务输入为非退化图像,导致模型缺乏处理真实世界退化文档(如模糊、遮挡、低对比度)所需的推理能力。下面来看看一个思路。供参考。

文章图片
#人工智能
再看两阶段多模态文档解析大模型-PaddleOCR-VL架构、数据、训练方法

文档解析这条赛道真卷,《》目前整体技术路线分三类:pipline式、两阶段式和端到端。在前面,也看了《下面再来看一个两阶段方案,由layout+VLM组成-PaddleOCR-VL-0.9B。

文章图片
#人工智能
Qwen-VL系列多模态大模型技术演进-模型架构、训练方法、数据细节

记录一下Qwen-VL系列多模态大模型技术演进-模型架构、训练方法、数据细节,仅供参考。

文章图片
#人工智能
从豆包手机等看GUI Agent:MobileRL GUI Agent训练框架和安卓XML预处理

以上相关技术汇聚就是目前比较火的“GUI Agent”,顺藤摸瓜的翻到了一篇关于移动端GUI Agent训练框架-(也是用于Agent Auto GLM训练的框架)。下面来看看都解决了什么问题。视觉语言模型(VLM)(如 Qwen2.5-VL、GLM-4.1V)让 “零样本交互网页 / 移动界面” 的 GUI Agent成为研究热点。这类Agent可通过感知屏幕截图 + 解析 UI 结构,自主执行

文章图片
#语言模型#人工智能#自然语言处理
标签驱动的可信金融大模型训练全流程-Agentar-Fin-R1工程思路浅尝

Agentar-Fin-R1 的开发pipline可概括为五个闭环阶段,每一阶段都有明确输入、处理逻辑和输出。

文章图片
#人工智能
PathRAG:通过图剪枝的方法优化Graph-based RAG的性能方法浅析

PathRAG 也是一种新型 Graph-based RAG 方法,通过检索索引图中的关键关系路径,减少噪声并优化 LLM 提示。其核心创新在于基于流的剪枝算法和路径为基础的提示策略,特别适用于捕捉复杂数据集中的关系。(其实可以看做三种Graph-based RAG对比总结(PathRAG、GraphRAG、LightRAG):•:通过从索引图中检索关键的关系路径来减少冗余信息。PathRAG使用

文章图片
#自然语言处理#深度学习#人工智能
Qwen3模型架构、训练方法梳理

qwen3炼丹真是全是技巧,下面来看看,仅供参考。

文章图片
【LLM&Agent】PPTAgent:PPT自动生成Agent框架

来看一个PPT生成思路:PPTAgent。传统的PPT生成方法通常使用端到端的文本生成范式,这种方法。PPTAgent 采用了一种基于编辑的生成范式,解决处理方面的挑战。传统方法的每个幻灯片SSi1∑n​ei​fC其中,n表示幻灯片上的元素数量,C表示由章节和图形组成的源内容。每个元素ei​由其类型、内容和样式属性(如边框、大小、位置等)定义。与传统的生成方法相比,PPTAgent 采用了一种基于

文章图片
#算法#人工智能
InternVL3.5多模态多大模型改进点及视觉分辨率路由模块技术浅尝

本文仅看下这个,因为从之前介绍的多个模型如:《》、《》等多模态大模型及《》的结论看,原生分辨率能够有效提升多模态大模型的性能,并广泛得到使用,InternVL3.5仍然使用着动态高分辨率,但这会带来token数量的增加,从而影响推理效率,但这次增加了一个,让其可动态选择视觉 token 的最小分辨率,从而实现更好的推理效率。

文章图片
#人工智能#算法
    共 135 条
  • 1
  • 2
  • 3
  • 14
  • 请选择