logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【AI论文】GPT-4o对视觉的理解能力如何?——基于标准计算机视觉任务评估多模态基础模型

摘要:本研究对主流多模态基础模型(GPT-4o、Gemini系列等7个模型)在6项标准计算机视觉任务上的表现进行系统评估。通过创新性提示词串联技术,将视觉任务转化为API兼容的文本任务。研究发现:1)所有模型性能均未达专家模型水平,但作为通用模型表现良好;2)语义任务表现显著优于几何任务;3)GPT-4o在非推理模型中表现最佳;4)推理模型在几何任务上有提升。研究揭示了当前多模态模型在视觉理解方面

文章图片
#人工智能
【AI论文】FlowRL:为大型语言模型(LLM)推理匹配奖励分布

摘要:本研究提出FlowRL方法,通过流量平衡匹配完整奖励分布(而非仅最大化奖励)来解决大语言模型强化学习中多样性不足的问题。传统方法(如PPO/GRPO)易过度优化主导奖励信号而忽略低频有效路径。FlowRL将标量奖励转换为归一化目标分布,通过最小化反向KL散度促进多样化探索。实验显示,在数学推理任务中FlowRL比GRPO/PPO分别提升10.0%/5.1%,在代码推理任务中持续表现更优。该方

文章图片
#人工智能#语言模型#自然语言处理
【AI论文】PHYBench:大型语言模型中物理感知与推理能力的全面评估

我们介绍了一种新颖的高质量基准,即PHYBench,旨在评估大型语言模型(LLMs)在物理环境中的推理能力。PHYBench由500个精心策划的物理问题组成,这些问题基于现实世界的物理场景,旨在评估模型理解和推理现实物理过程的能力。该基准涵盖了力学、电磁学、热力学、光学、现代物理学和高等物理学,难度范围从高中练习到本科问题和物理奥林匹克竞赛挑战。

文章图片
#人工智能#语言模型#自然语言处理
【AI论文】DeepPHY:面向物理推理的智能体视觉语言模型(VLMs)基准测评

摘要:本研究针对视觉语言模型(VLMs)在动态环境中的物理推理能力不足问题,提出了DeepPHY基准测评框架。该框架整合了PHYRE、I-PHYRE等6个不同复杂度的物理推理环境,通过标准化观察与行动空间转换,采用成功率等指标系统评估了17个主流VLMs的性能。实验表明,即便GPT-o3等顶尖模型在复杂物理推理任务中成功率仍低于23%,暴露出模型在细节关注、精确控制和多组件协同等方面的显著缺陷。研

文章图片
#人工智能#语言模型#自然语言处理
【AI论文】UniWorld:用于统一视觉理解和生成的高分辨率语义编码器

摘要: 本文针对统一视觉语言模型在图像感知与操纵任务上的局限性,分析了GPT-4o-Image利用语义编码器(非传统VAE)的特征提取机制,并提出新型框架UniWorld。该框架结合多模态大语言模型(Qwen2.5-VL)与对比语义编码器(SigLIP),通过两阶段训练(语义对齐预训练+生成微调)实现高效图像理解与编辑。实验表明,UniWorld仅用1%的BAGEL数据量即在ImgEdit-Ben

文章图片
#人工智能#计算机视觉
【AI论文】量化感知训练的缩放定律

本文探讨了大型语言模型(LLMs)在部署时面临的计算和内存资源挑战,提出了量化感知训练(QAT)作为解决方案,特别是在4位精度(W4A4)下的应用。研究通过268次实验,建立了统一的QAT缩放定律,将量化误差与模型大小、训练数据量和量化组大小关联起来。研究发现,量化误差随模型增大而减小,但随训练数据增加和量化粒度变粗而增加。通过分解量化误差为权重和激活分量,识别了W4A4量化误差的主要来源,并提出

文章图片
#人工智能
【AI论文】基于图像思维的多模态推理:理论基础、方法及未来前沿

摘要:本文提出"借助图像思考"(Thinking with Images)的新范式,以弥合多模态推理中视觉信息与符号思维之间的"语义鸿沟"。不同于传统文本思维链(CoT)将视觉视为静态输入,该范式让模型主动利用视觉信息作为中间推理步骤。研究构建了包含三个阶段的方法体系:外部工具探索、程序化操作和内在想象,并通过实验验证了其在视觉问答、物理推理等任务上的有效性

文章图片
#人工智能
【AI论文】xVerify:推理模型评估的高效答案验证器

随着OpenAI发布o1模型,采用慢思考策略的推理模型逐渐出现。由于此类模型产生的响应通常包含复杂的推理、中间步骤和自我反思,因此现有的评估方法往往不够充分。他们很难确定LLM的输出是否真的与参考答案相同,而且很难从冗长复杂的回复中识别和提取最终答案。为了解决这个问题,我们提出了xVerify,这是一种高效的答案验证器,用于推理模型评估。xVerify在等价性判断方面展示了强大的能力,使其能够有效

文章图片
#人工智能#深度学习
【AI论文】ReLearn: 通过学习进行遗忘的大型语言模型

为了解决这些挑战,我们提出了ReLearn,这是一种有效的遗忘数据增强和微调流程,同时配套了一个全面的评估框架。本文提出了一种新颖的大型语言模型(LLMs)遗忘方法——ReLearn,该方法通过数据增强和正向优化来实现有效的遗忘,同时保留模型的语言生成能力。本文通过提出ReLearn方法和评估框架,为大型语言模型的遗忘问题提供了新的视角和解决方案。实验结果表明,ReLearn在有效遗忘目标知识的同

文章图片
#人工智能#学习#语言模型
【AI论文】硬测试:为大型语言模型(LLM)编程合成高质量测试用例

本文提出HARDTESTGEN测试用例合成管道及HARDTESTS数据集(含47k编程问题),用于提升大语言模型(LLM)代码验证能力。实验表明,该方案评估代码时精确度提升11.3%、召回率提升17.5%,在困难问题上精度提升可达40%。研究还验证了高质量测试用例对模型训练的显著优化效果。工作为LLM代码生成任务提供了有效的验证工具和训练资源。

文章图片
#人工智能#语言模型#自然语言处理
    共 624 条
  • 1
  • 2
  • 3
  • 63
  • 请选择