Agent相关

  • PhysiAgent: An Embodied Agent Framework in Physical World: 该论文提出了PhysiAgent,一个在物理环境中运行的具身智能体框架。该框架通过结合监控、记忆、自我反思机制以及轻量级的工具箱,使VLMs能够基于VLA的实时反馈来组织不同的组件,从而充分利用VLA的能力。实验结果表明,该框架在复杂的真实机器人任务中显著提高了任务解决性能。
  • FuncPoison: Poisoning Function Library to Hijack Multi-agent Autonomous Driving Systems: 该论文揭示了多智能体自动驾驶系统中共享功能库的一个潜在安全漏洞。通过注入带有欺骗性指令的恶意工具,攻击者可以操纵智能体的决策,从而导致系统出现级联错误。实验表明,这种攻击能够显著降低轨迹精度,并灵活地针对特定智能体进行攻击。
  • DynaMIC: Dynamic Multimodal In-Context Learning Enabled Embodied Robot Counterfactual Resistance Ability: 该论文提出了DynaMIC框架,旨在提高机器人在接收到误导性指令时的鲁棒性。该框架能够生成机器人任务流程,识别指令中的反事实信息,并主动向人类提供反馈,从而增强任务执行过程的可靠性。
  • MedMMV: A Controllable Multimodal Multi-Agent Framework for Reliable and Verifiable Clinical Reasoning: 该论文提出了MedMMV,一个用于可靠和可验证临床推理的可控多模态多智能体框架。MedMMV通过多样化的短期迭代来稳定推理过程,在幻觉检测器的监督下,将中间步骤置于结构化的证据图中,并使用组合不确定性评分器聚合候选路径。在六个医学基准测试中,MedMMV将准确率提高了12.7%,更重要的是,展示了卓越的可靠性。

训练数据相关

  • NeMo: Needle in a Montage for Video-Language Understanding: 该论文提出了NeMo,一个用于评估VideoLLMs复杂时序推理能力的新任务和基准。NeMoBench包含31378个自动生成的问题-答案对,涵盖各种时长(从几秒到几小时)的13486个视频。实验结果揭示了现有模型在长上下文记忆和时序定位方面的局限性。
  • Q-Mirror: Unlocking the Multi-Modal Potential of Scientific Text-Only QA Pairs: 这篇论文探索了将纯文本问答对转化为高质量多模态问答对的潜力,旨在解决多模态科学推理benchmark构建成本高的问题。他们提出了一个转化框架,并构建了两个benchmark来评估生成和理解模型。同时,他们提出了一个Agentic系统Q-Mirror,通过闭环迭代优化,提高benchmark的质量。

训练策略

大模型的行业应用

  • LLM-Handover:Exploiting LLMs for Task-Oriented Robot-Human Handovers: 该论文提出了LLM-Handover,一个将LLM推理与零件分割相结合的框架,用于实现上下文感知的机器人-人类物体交接。该系统能够根据RGB-D图像和任务描述,推断相关的物体部分,并选择能够优化交接后可用性的抓取方式。实验结果表明,LLM-Handover能够提高抓取成功率,更好地适应交接后的任务约束。
  • AXIS: Explainable Time Series Anomaly Detection with Large Language Models: 该论文提出了AXIS框架,利用LLM进行可解释的时间序列异常检测。AXIS通过引入符号数字提示、上下文集成提示和任务先验提示来丰富LLM的输入,从而实现对时间序列的细致理解。实验结果表明,AXIS能够生成更高质量的解释,并实现与专用时间序列LLM和时间序列视觉语言模型相当的检测精度。
  • ELASTIQ: EEG-Language Alignment with Semantic Task Instruction and Querying: 该论文提出了ELASTIQ,一个用于脑电图(EEG)-语言对齐的基础模型,结合了语义任务指令和查询。ELASTIQ集成了任务感知的语义指导,以产生结构化和语言对齐的脑电图嵌入,从而增强了解码的鲁棒性和可迁移性。在多个脑机接口任务上,ELASTIQ取得了最先进的性能。

Benchmark

底层模型架构

文生图/文生视频

编辑精选

  1. PhysiAgent: An Embodied Agent Framework in Physical World: 该论文的PhysiAgent框架是具身智能体研究的重要进展,其结合VLM和VLA的策略能够显著提高机器人在真实环境中的任务解决能力。这种架构对于未来的机器人应用具有很高的潜力。
  2. Euclid’s Gift: Enhancing Spatial Perception and Reasoning in Vision-Language Models via Geometric Surrogate Tasks: 这篇论文提出了一个非常新颖且有潜力的思路,将几何问题求解作为辅助任务,提升MLLM的空间推理能力,为解决MLLM空间智能的瓶颈问题提供了新的视角和方法。
  3. GRPO-MA: Multi-Answer Generation in GRPO for Stable and Efficient Chain-of-Thought Training: GRPO-MA通过从每个思维过程中生成多个答案,从而有效提高了Chain-of-Thought训练的稳定性和效率。该算法的理论基础扎实,实验结果令人信服,具有很强的实用价值。
  4. NeMo: Needle in a Montage for Video-Language Understanding: 该论文提出的NeMo基准对于评估VideoLLMs的复杂时序推理能力至关重要。该基准的自动数据生成流程具有良好的可扩展性,能够不断更新最新的视频数据,为未来的研究提供有力的支持。
Logo

更多推荐