
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
如何在一个统一的端到端模型中同时实现高精度的文档解析、布局分析和语义理解,从而解决传统多阶段流水线存在的误差传播和视觉上下文丢失问题?论文提出了Qianfan-OCR,一个4B参数的端到端模型,通过引入"Layout-as-Thought"机制,在保持端到端优势的同时恢复了显式布局分析能力,并在多项基准测试中超越现有流水线系统及通用大模型。

在视觉语言模型(VLM)中缺乏可复现的强化学习(RL)训练框架和标准化评估方法。论文提出了一个透明的、从头实现的RL训练框架和一个综合评估方案,旨在提高VLM的训练效果和评估的一致性。

现有基于大语言模型的信息寻求智能体过度依赖搜索引擎索引内容,如何有效解决关键信息隐藏在未被索引网页、动态交互或嵌入文件中的“未索引信息寻求”难题?论文提出了首个未索引信息寻求基准UIS-QA及多智能体框架UIS-Digger,通过双模式浏览和两阶段训练显著提升了在此类任务上的表现。

如何在计算受限的边缘设备上,通过改进视觉表示而非单纯扩大模型规模,来构建兼具高效性与强大多模态理解能力的紧凑视觉语言模型?论文提出了 Penguin-VL,首创直接用纯文本 LLM 权重初始化视觉编码器,证明了该策略在细粒度感知和推理任务上优于传统的对比学习预训练编码器。

如何让大语言模型真正掌握CUDA内核优化能力,从而超越传统编译器(如torch.compile)生成更高速、更正确的GPU内核?论文提出首个大规模智能体强化学习系统CUDA Agent,通过数据合成、技能增强型开发环境与稳定RL训练三方面协同设计,首次使LLM在KernelBench上全面超越torch.compile及顶尖闭源模型。

如何在显著降低训练与推理计算开销的前提下,构建性能媲美大模型的轻量级开放权重多模态推理模型?论文提出Phi-4-reasoning-vision-15B,通过高质量数据治理、动态高分辨率视觉编码器设计及混合推理机制,在仅200B训练token下实现SOTA能效比。

传统强化学习从人类反馈(RLHF)中获取奖励信号存在稀疏和延迟问题。论文提出了R3HF方法,通过细粒度的奖励再分配机制,减少了人类标注的需求,提高了RLHF的效率和性能。

如何在保持极低活跃参数量的前提下,显著提升开源编码大模型的代理式编程能力?论文提出Qwen3-Coder-Next——一个80B总参、仅激活3B参数的MoE架构编码专用模型,通过规模化可执行任务合成、多阶段代理训练与专家蒸馏,实现小足迹下的强代理性能。

如何为自主智能体构建高质量、可验证的训练数据,以支持其在复杂状态化环境中完成严格逻辑约束下的状态转移任务?论文提出LOGIGEN框架,首次系统性实现“硬编译策略锚定+逻辑前向合成+确定性状态验证”三位一体的数据生成范式,并配套验证驱动的SFT+RL训练协议。

如何将视觉理解能力有效集成到大语言模型(LLM)中,以克服传统多模态模型的缺陷?论文提出了一种新的方法"Vision as LoRA"(VoRA),通过低秩适应(LoRA)将视觉能力直接嵌入LLM中,避免了外部视觉模型的依赖,同时保持了语言知识的完整性。








