logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

英伟达:AXPO缩小智能体思维行动差距

如何解决多模态智能体推理中,因工具使用的高方差和低频尝试导致的强化学习信号缺失问题?论文提出AXPO算法,通过固定思维前缀并重采样工具调用,有效缩小“思维-行动”差距,显著提升模型性能。

文章图片
#人工智能#自然语言处理#语言模型
上海交大:多模态大模型强化学习框架

在视觉语言模型(VLM)中缺乏可复现的强化学习(RL)训练框架和标准化评估方法。论文提出了一个透明的、从头实现的RL训练框架和一个综合评估方案,旨在提高VLM的训练效果和评估的一致性。

文章图片
#人工智能#自然语言处理#语言模型
阿里:金融工具调用评测基准FinMCP-Bench

如何系统评估大语言模型在真实复杂金融场景中调用标准化工具协议(MCP)的能力?论文提出了 FinMCP-Bench,首个涵盖真实与合成数据、支持多工具依赖及多轮对话的金融 MCP 工具调用评测基准。

文章图片
#人工智能#自然语言处理#语言模型
微软:大规模合成数字工作环境

如何在不依赖隐私数据的前提下,大规模生成具备真实文件环境和长周期上下文的合成数据,以训练能处理复杂生产力任务的 AI 智能体?论文提出了一种基于角色 Persona 生成大规模合成电脑环境的方法,并通过长周期模拟产生了丰富的经验信号,显著提升了智能体在域内及域外生产力任务中的表现。

文章图片
#人工智能#自然语言处理#语言模型
Northeastern:揭示VLM空间数字理解的缺陷

视觉语言模型是否真正理解数字在空间中的含义,还是仅仅生成看似合理但缺乏空间根基的数值输出?论文提出SPACENUM统一评估框架,通过NUM2SPACE和SPACE2NUM双向任务系统评估18个VLM在动态空间转移和静态空间布局中的空间数字理解能力,揭示当前模型严重缺乏真正的空间数值根基。

文章图片
#人工智能#计算机视觉#语言模型
上海AI Lab:构建诊断型Agent守门员

如何为自主AI智能体设计既能识别复杂风险又能解释风险根源的安全围栏?论文提出首个三维正交安全分类法,构建可诊断根因的智能体安全守门框架AgentDoG及细粒度基准ATBench。

文章图片
#人工智能#自然语言处理#语言模型
上海AI Lab:轻量级智能体安全对齐框架

如何解决开放世界AI智能体面临的新型安全风险及现有对齐框架部署成本高的问题?论文提出了轻量可扩展的AgentDoG 1.5框架,仅用千条样本训练小模型即实现媲美前沿大模型的安全防护效果。

文章图片
#人工智能#安全#语言模型
谷歌:多模态嵌入Gemini Embedding 2

如何构建一个能够统一处理文本、图像、视频和音频,并在跨模态检索及垂直领域任务中实现状态最先进性能的原生多模态嵌入模型?论文提出了基于Gemini架构的Gemini Embedding 2,通过多阶段对比学习和合成数据增强,实现了全模态统一表示及SOTA性能。

文章图片
#人工智能#语言模型
谷歌:多模态嵌入Gemini Embedding 2

如何构建一个能够统一处理文本、图像、视频和音频,并在跨模态检索及垂直领域任务中实现状态最先进性能的原生多模态嵌入模型?论文提出了基于Gemini架构的Gemini Embedding 2,通过多阶段对比学习和合成数据增强,实现了全模态统一表示及SOTA性能。

文章图片
#人工智能#语言模型
谷歌:多模态嵌入Gemini Embedding 2

如何构建一个能够统一处理文本、图像、视频和音频,并在跨模态检索及垂直领域任务中实现状态最先进性能的原生多模态嵌入模型?论文提出了基于Gemini架构的Gemini Embedding 2,通过多阶段对比学习和合成数据增强,实现了全模态统一表示及SOTA性能。

文章图片
#人工智能#语言模型
    共 454 条
  • 1
  • 2
  • 3
  • 46
  • 请选择