logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

多模态大模型研究每日简报(2025-07-14)

今天发布的论文主要集中在多模态学习、大语言模型在具身智能和图像理解方面的应用,以及如何提高模型效率和可靠性。特别关注的是利用各种模态的数据来增强模型的理解和推理能力,同时探索如何在资源有限的环境中部署这些模型。

#人工智能#深度学习
多模态大模型研究每日简报【2025-10-16】

Honey-Data-15M数据集通过清洗与双层CoT策略增强1500万QA对,推动开源MLLM性能达SOTA;SALAD方法解决语音LLM理解差距,通过知识蒸馏缓解模态错位。Agent领域,RECODE框架通过程序生成重构视觉信息,InternVLA-M1则统一空间定位与机器人控制。训练策略方面,信息论视角验证跨模态知识蒸馏有效性,SteerMoE实现轻量级音频-语言对齐。行业应用中,多模态模型

文章图片
#人工智能#语音识别#深度学习 +2
多模态大模型研究每日简报【2025-10-14】

在数据集方面,Math-VR(17.8万数学问题)、InfiniHumanData(11.1万3D人体模型)等大规模数据集相继发布;智能体研究聚焦强化学习与多模态融合,如ManiAgent实现端到端机器人操作,ReLook创新性地使用LLM进行视觉反馈;行业应用涵盖教育翻译、医疗影像分析等领域;多个新基准测试相继推出,如IVEBench(600视频)、ODI-Bench(2000全向图像)等评估标

文章图片
#人工智能#深度学习#机器学习 +2
多模态大模型研究每日简报【2025-10-13】

智能体方向:提出GUI代理连续记忆机制提升泛化能力;综述放射学LLM智能体应用;对话代理多模态策略内化方法TriMPI显著提升性能。大模型应用:MLLM结合消费级相机实现肩部疾病诊断;放射学VLM幻觉过滤方法DSE提升准确性。基准测试:推出多个多模态推理与检索基准,如BLINK-Twice(视觉推理)、CFVBench(视频MRAG)、MRMR(跨领域检索)及PhysToolBench(工具理解)

文章图片
#人工智能#机器学习#计算机视觉 +2
多模态大模型研究每日简报(2025-07-14)

今天发布的论文主要集中在多模态学习、大语言模型在具身智能和图像理解方面的应用,以及如何提高模型效率和可靠性。特别关注的是利用各种模态的数据来增强模型的理解和推理能力,同时探索如何在资源有限的环境中部署这些模型。

#人工智能#深度学习
多模态大模型研究国庆简报【2025-10-1~2025-10-10】

Agent方面,MATRIX框架通过多模态轨迹合成提升工具使用推理能力;CompassLLM利用多Agent解决地理空间路径查询;MoA-VR通过混合Agent实现视频修复。训练数据方面,FastUMI-100K和USIM数据集分别推动机器人操作和水下机器人研究。评估基准成为重点,VideoNorms测试文化意识,SciVideoBench评估科学视频推理,FinMR聚焦金融多模态推理,GTR-B

文章图片
#人工智能#深度学习#机器学习 +2
多模态大模型研究每日简报【2025-09-30】

PhysiAgent提出具身智能体框架,通过监控与自我反思机制提升机器人任务性能;FuncPoison揭示自动驾驶系统的安全漏洞;DynaMIC增强机器人抗干扰能力;MedMMV优化临床推理可靠性。训练数据方面,NeMo构建视频理解新基准,Q-Mirror实现文本到多模态QA转化。训练策略中,GRPO-MA提高思维链训练效率,SCPO缓解视觉幻觉,几何辅助任务增强空间推理。行业应用涵盖机器人交接(

文章图片
#自然语言处理#机器学习#人工智能 +1
多模态大模型研究每日简报【2025-09-29】

在Agent方面,WebGen-Agent和Labeling Copilot分别提出网站生成和数据标注的创新框架。训练数据相关研究包括DeeptraceReward视频伪造检测数据集、MesaTask桌面场景生成数据集等。训练策略方面,SPARK和GCPO分别优化强化学习与图像生成。行业应用领域涉及TrueGradeAI考试评估系统、HyCoVAD视频异常检测等实用解决方案。

文章图片
#人工智能#计算机视觉#机器学习 +2
多模态大模型研究每日简报【2025-09-26】

Nova框架实现单GPU实时服务Agentic视觉语言模型,VC-Agent则加速定制视频数据集收集。Meta-Memory通过LLM增强机器人空间推理能力。模型预训练方面,SciReasoner培养科学推理能力,Sigma优化手语理解。数据方面,TABLET提供大规模视觉表格数据集,ArchGPT构建建筑领域专业数据集。行业应用中,语义通信框架减少交通监控数据传输,Decipher-MR提升3D

文章图片
#人工智能#深度学习#机器学习 +2
多模态大模型研究每日简报【2025-09-26】

Nova框架实现单GPU实时服务Agentic视觉语言模型,VC-Agent则加速定制视频数据集收集。Meta-Memory通过LLM增强机器人空间推理能力。模型预训练方面,SciReasoner培养科学推理能力,Sigma优化手语理解。数据方面,TABLET提供大规模视觉表格数据集,ArchGPT构建建筑领域专业数据集。行业应用中,语义通信框架减少交通监控数据传输,Decipher-MR提升3D

文章图片
#人工智能#深度学习#机器学习 +2
    共 69 条
  • 1
  • 2
  • 3
  • 7
  • 请选择