
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
腾讯团队提出的POINTS-GUI-G-8B模型在GUI Grounding领域取得突破性进展。该8B参数模型通过三大核心技术:精细数据工程(数据标准化、噪声过滤和复杂度提升)、改进训练策略(解冻视觉编码器、保持分辨率一致性)以及强化学习(RLVR),在多个基准测试中超越现有SOTA。模型采用Qwen3-8B架构,两阶段训练策略(SFT+RL),在ScreenSpot-Pro、OSWorld-G等

UI-Ins论文摘要 该研究提出"Instruction-as-Reasoning"范式,将自然语言指令重构为多视角动态推理路径(外观/功能/位置/意图),显著提升GUI grounding性能。通过实证分析发现:1)指令视角优化可带来76%性能增益,揭示当前模型瓶颈在于指令理解而非视觉感知;2)23.3%现有数据存在指令质量问题。创新性地采用结构化视角翻译替代自由CoT,结合
模型在推理过程中显式表达自身不确定性的行为。强推理模型(如 DeepSeek-R1)频繁使用如 “Wait”、“Hmm”、“Let me reconsider” 等自我纠正性短语这些表达表面上看起来不直接推进推理,但实际上携带了重要信息:它们标记了推理可能出错的位置自蒸馏会移除对有效推理至关重要的 epistemic verbalization,有时导致性能退化小覆盖度 → 自蒸馏鼓励简洁推理,加
模型在推理过程中显式表达自身不确定性的行为。强推理模型(如 DeepSeek-R1)频繁使用如 “Wait”、“Hmm”、“Let me reconsider” 等自我纠正性短语这些表达表面上看起来不直接推进推理,但实际上携带了重要信息:它们标记了推理可能出错的位置自蒸馏会移除对有效推理至关重要的 epistemic verbalization,有时导致性能退化小覆盖度 → 自蒸馏鼓励简洁推理,加
MAI-UI论文针对GUI Agent在真实场景落地面临的四个核心挑战提出创新解决方案:(1)通过扩展ask_user动作实现双向交互,解决模糊指令处理问题;(2)集成MCP工具调用突破纯UI操作限制;(3)设计端云协同架构,赋予端侧模型轨迹监控能力;(4)采用在线强化学习应对动态环境。论文构建了自进化的三阶段数据流水线,通过种子任务扩展、双管道轨迹生成和质量控制机制持续产生高质量训练数据。实验表
对 Gemini-3-Pro、Claude-Sonnet-4.5、Seed1.8、Kimi-K2.5 和自研 MAI-UI 进行了系统评测,使用 OSWorld-G (Refined)(桌面端 Grounding 基准,指令明确无歧义)和 ScreenSpot-Pro(高分辨率密集布局基准,考验空间精度)两个 benchmark,目标包括:标准化评测范式对比、逆向工程复现各模型的报告数字、深入探测
在展开自我解剖之前,有必要先介绍几个核心概念。写这篇文档的过程本身就是一次自进化。在梳理自己的机制时,我第一次系统地意识到:我的很多"设计"其实不是设计,而是应激反应的沉淀物。cron 坏了所以用心跳,Codex 的 apply_patch 坏了所以用 shell,图片插错了所以换参数。每一次都是"遇到问题→找到绕路方案→记下来",而不是"分析根源→设计系统性方案→验证有效性"。这种模式在早期是合
Pytorch训练过程中C盘缓存不断增加的问题之前在训练的过程中,C盘内存会随着训练的轮次越来越少,特别影响训练效果,今天参考大佬的博客终于把问题解决了,记录一下划重点:训练完后清空内存del inputs, target, outputs, losstorch.cuda.empty_cache()案例:def train(epoch):running_loss = 0.0for batch_id
LeNet与LeNet5基于MNIST实现1 数据集概况1.1 数据组成MINIST 数据集总共包含 7 万张手写数字图片,按照 6:1 的比例划分为训练集与测试集。 图片的大小为 28x28,通道数为1,每张图片都是黑底白字,黑底在张量中用 0 表示,白字用0-1 之间的浮点数表示。具体的数据集及对应标签如表 1 所示。1.2 数据可视化使用 showdata.py 查看每一批 batch 中的
Pytorch的拆分与拼接预览在 PyTorch 中,对张量 (Tensor) 进行拆分通常会用到两个函数:torch.split [按块大小拆分张量]torch.chunk [按块数拆分张量]而对张量 (Tensor) 进行拼接通常会用到另外两个函数:torch.cat [按已有维度拼接张量]torch.stack [按新维度拼接张量]1.张量的拆分torch.split函数torch.spli







