logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

IEEE 26 | 参数量不是关键:4B模型VeriGround在匿名化电路生成任务上性能超越GPT-5.4

本文揭示了多模态大语言模型(MLLM)在"视觉到代码"任务中存在"海市蜃楼"缺陷:模型会绕过视觉输入,依赖文本提示中的语义信息生成代码模板,而非真正理解电路图。研究提出VeriGround解决方案,通过标识符匿名化训练数据和决策聚焦偏好对齐算法(D-ORPO),强制模型学习视觉拓扑结构。实验表明,4B参数的VeriGround在匿名化测试中功能正确率达42.

文章图片
#人工智能#机器学习#深度学习
7B小模型逆袭70B?强化学习如何点燃多模态大模型的推理能力

本文介绍了DeepSeek团队提出的Vision-R1多模态推理模型,该模型通过"冷启动数据构造+强化学习精炼"的两阶段训练范式,显著提升了多模态模型的逐步推理能力。针对多模态推理数据稀缺的痛点,Vision-R1创新性地采用"模态桥接"方法自动生成高质量思维链数据(Vision-R1-cold数据集),并提出渐进式思考抑制训练(PTST)解决模型&quot

文章图片
#人工智能#机器学习#深度学习 +1
CVPR|Video-MME:判断模型“会不会看视频“的统一标尺

【视频理解评测新基准】Video-MME(CVPR2025)解决了视频多模态领域缺乏统一评测标准的核心痛点。该基准通过覆盖不同时长/类型/场景的视频内容,综合评估模型在时序推理、细粒度识别等维度的能力,已被Gemini、GPT等旗舰模型采纳为官方评测标准。其创新点在于:1)建立首个全面视频评测体系;2)揭示采样帧数/分辨率对成绩的影响;3)持续维护避免数据失效。目前该基准已成为衡量视频理解能力的&

#人工智能#深度学习#机器学习 +2
统一多模态理解与生成:GPT-40之后最值得入门的一张地图

这篇综述文章探讨了统一多模态理解与生成模型的最新进展,分析了三大技术范式:纯扩散模型(擅长图像生成但推理能力弱)、纯自回归模型(推理能力强但图像生成效率低)以及混合架构(结合两者优势)。文章指出该领域的核心挑战在于表示方法、跨模态交互和评估基准,并强调这一方向对实现GPT-4o级别多模态能力的重要性。作为持续更新至2026年的综述,它为研究者提供了清晰的技术路线图,特别适合初入该领域的研究生快速把

#人工智能#机器学习#深度学习
自回归、扩散、混合:三大统一多模态范式怎么选?

本文系统梳理了GPT-4o之后多模态生成的三大技术路线:1)纯自回归(AR)路线通过统一token化处理图文数据,架构简洁但生成效率低;2)纯扩散路线采用并行去噪生成,图像质量高但推理能力较弱;3)混合路线结合AR的语义规划和扩散的生成优势,成为当前主流方案。文章对比了各路线代表模型的技术特点、优势短板及适用场景,建议研究者从混合架构入手,重点关注tokenization、跨模态注意力和训练数据三

#人工智能#计算机视觉#机器学习
无痛安装 Codex:手把手教你走完下载到使用科研 Skill 的全过程

我们还注意到,近期不少同学反馈Codex安装中遇到各种报错,我们整理了近期的真实问题反馈,按 Windows 和 Mac 分类,并附上经过验证的解决步骤。为避免各位在下载过程中遇到的困难,我们还准备了 Mac 和 Win 的安装包。如果你也在安装过程中出现问题,欢迎后台私信我【B636】,这份问题解决指南和安装包会免费发送给您。

#人工智能#机器学习#深度学习 +1
具身智能的下一个风口:不是更大模型,而是更聪明的Skill进化机制

【摘要】近期AI研究正从"更大模型"转向"更聪明的外部技能机制",Skill进化成为提升Agent能力的新方向。三个代表性研究展示了技能全生命周期的创新:1)SkillEvolver通过元技能自动生成可复用技能,在83个任务上反超人工技能13.3%;2)EmbodiSkill区分执行失败与技能缺陷,通过四层反思机制提升具身任务成功率至93.28%;3)达尔文

#人工智能#机器学习#深度学习 +1
具身智能的下一个风口:不是更大模型,而是更聪明的Skill进化机制

【摘要】近期AI研究正从"更大模型"转向"更聪明的外部技能机制",Skill进化成为提升Agent能力的新方向。三个代表性研究展示了技能全生命周期的创新:1)SkillEvolver通过元技能自动生成可复用技能,在83个任务上反超人工技能13.3%;2)EmbodiSkill区分执行失败与技能缺陷,通过四层反思机制提升具身任务成功率至93.28%;3)达尔文

#人工智能#机器学习#深度学习 +1
具身智能的下一个风口:不是更大模型,而是更聪明的Skill进化机制

【摘要】近期AI研究正从"更大模型"转向"更聪明的外部技能机制",Skill进化成为提升Agent能力的新方向。三个代表性研究展示了技能全生命周期的创新:1)SkillEvolver通过元技能自动生成可复用技能,在83个任务上反超人工技能13.3%;2)EmbodiSkill区分执行失败与技能缺陷,通过四层反思机制提升具身任务成功率至93.28%;3)达尔文

#人工智能#机器学习#深度学习 +1
自回归、扩散、混合:三大统一多模态范式怎么选?

本文系统梳理了GPT-4o之后多模态生成的三大技术路线:1)纯自回归(AR)路线通过统一token化处理图文数据,架构简洁但生成效率低;2)纯扩散路线采用并行去噪生成,图像质量高但推理能力较弱;3)混合路线结合AR的语义规划和扩散的生成优势,成为当前主流方案。文章对比了各路线代表模型的技术特点、优势短板及适用场景,建议研究者从混合架构入手,重点关注tokenization、跨模态注意力和训练数据三

#人工智能#计算机视觉#机器学习
    共 73 条
  • 1
  • 2
  • 3
  • 8
  • 请选择