
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
摘要:本研究对主流多模态基础模型(GPT-4o、Gemini系列等7个模型)在6项标准计算机视觉任务上的表现进行系统评估。通过创新性提示词串联技术,将视觉任务转化为API兼容的文本任务。研究发现:1)所有模型性能均未达专家模型水平,但作为通用模型表现良好;2)语义任务表现显著优于几何任务;3)GPT-4o在非推理模型中表现最佳;4)推理模型在几何任务上有提升。研究揭示了当前多模态模型在视觉理解方面

摘要:本研究提出FlowRL方法,通过流量平衡匹配完整奖励分布(而非仅最大化奖励)来解决大语言模型强化学习中多样性不足的问题。传统方法(如PPO/GRPO)易过度优化主导奖励信号而忽略低频有效路径。FlowRL将标量奖励转换为归一化目标分布,通过最小化反向KL散度促进多样化探索。实验显示,在数学推理任务中FlowRL比GRPO/PPO分别提升10.0%/5.1%,在代码推理任务中持续表现更优。该方

我们介绍了一种新颖的高质量基准,即PHYBench,旨在评估大型语言模型(LLMs)在物理环境中的推理能力。PHYBench由500个精心策划的物理问题组成,这些问题基于现实世界的物理场景,旨在评估模型理解和推理现实物理过程的能力。该基准涵盖了力学、电磁学、热力学、光学、现代物理学和高等物理学,难度范围从高中练习到本科问题和物理奥林匹克竞赛挑战。

摘要:本研究针对视觉语言模型(VLMs)在动态环境中的物理推理能力不足问题,提出了DeepPHY基准测评框架。该框架整合了PHYRE、I-PHYRE等6个不同复杂度的物理推理环境,通过标准化观察与行动空间转换,采用成功率等指标系统评估了17个主流VLMs的性能。实验表明,即便GPT-o3等顶尖模型在复杂物理推理任务中成功率仍低于23%,暴露出模型在细节关注、精确控制和多组件协同等方面的显著缺陷。研

摘要: 本文针对统一视觉语言模型在图像感知与操纵任务上的局限性,分析了GPT-4o-Image利用语义编码器(非传统VAE)的特征提取机制,并提出新型框架UniWorld。该框架结合多模态大语言模型(Qwen2.5-VL)与对比语义编码器(SigLIP),通过两阶段训练(语义对齐预训练+生成微调)实现高效图像理解与编辑。实验表明,UniWorld仅用1%的BAGEL数据量即在ImgEdit-Ben

本文探讨了大型语言模型(LLMs)在部署时面临的计算和内存资源挑战,提出了量化感知训练(QAT)作为解决方案,特别是在4位精度(W4A4)下的应用。研究通过268次实验,建立了统一的QAT缩放定律,将量化误差与模型大小、训练数据量和量化组大小关联起来。研究发现,量化误差随模型增大而减小,但随训练数据增加和量化粒度变粗而增加。通过分解量化误差为权重和激活分量,识别了W4A4量化误差的主要来源,并提出

摘要:本文提出"借助图像思考"(Thinking with Images)的新范式,以弥合多模态推理中视觉信息与符号思维之间的"语义鸿沟"。不同于传统文本思维链(CoT)将视觉视为静态输入,该范式让模型主动利用视觉信息作为中间推理步骤。研究构建了包含三个阶段的方法体系:外部工具探索、程序化操作和内在想象,并通过实验验证了其在视觉问答、物理推理等任务上的有效性

随着OpenAI发布o1模型,采用慢思考策略的推理模型逐渐出现。由于此类模型产生的响应通常包含复杂的推理、中间步骤和自我反思,因此现有的评估方法往往不够充分。他们很难确定LLM的输出是否真的与参考答案相同,而且很难从冗长复杂的回复中识别和提取最终答案。为了解决这个问题,我们提出了xVerify,这是一种高效的答案验证器,用于推理模型评估。xVerify在等价性判断方面展示了强大的能力,使其能够有效

为了解决这些挑战,我们提出了ReLearn,这是一种有效的遗忘数据增强和微调流程,同时配套了一个全面的评估框架。本文提出了一种新颖的大型语言模型(LLMs)遗忘方法——ReLearn,该方法通过数据增强和正向优化来实现有效的遗忘,同时保留模型的语言生成能力。本文通过提出ReLearn方法和评估框架,为大型语言模型的遗忘问题提供了新的视角和解决方案。实验结果表明,ReLearn在有效遗忘目标知识的同

本文提出HARDTESTGEN测试用例合成管道及HARDTESTS数据集(含47k编程问题),用于提升大语言模型(LLM)代码验证能力。实验表明,该方案评估代码时精确度提升11.3%、召回率提升17.5%,在困难问题上精度提升可达40%。研究还验证了高质量测试用例对模型训练的显著优化效果。工作为LLM代码生成任务提供了有效的验证工具和训练资源。








