logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

(论文速读)基于M-LLM的高效视频理解视频帧选择

本文提出了一种基于多模态大语言模型(M-LLM)的自适应视频帧选择方法,以提高视频理解效率。针对现有均匀采样方法可能导致关键帧丢失的问题,该方法通过轻量级帧选择器,结合空间和时间双重监督信号,智能选取与问题相关的视频帧。实验表明,该方法在中长视频问答任务上显著提升性能(最高+3.7%),并能用更少帧数达到更好效果(4帧接近32帧的均匀采样效果)。核心创新在于问题导向的帧选择策略,仅需1.5B参数即

文章图片
#人工智能#视频生成#贪心算法
(论文速读)基于M-LLM的高效视频理解视频帧选择

本文提出了一种基于多模态大语言模型(M-LLM)的自适应视频帧选择方法,以提高视频理解效率。针对现有均匀采样方法可能导致关键帧丢失的问题,该方法通过轻量级帧选择器,结合空间和时间双重监督信号,智能选取与问题相关的视频帧。实验表明,该方法在中长视频问答任务上显著提升性能(最高+3.7%),并能用更少帧数达到更好效果(4帧接近32帧的均匀采样效果)。核心创新在于问题导向的帧选择策略,仅需1.5B参数即

文章图片
#人工智能#视频生成#贪心算法
Wonder3D: 跨域扩散的单图像3D重建技术

Wonder3D提出了一种高效的单视图图像到3D重建方法,通过跨域扩散模型生成多视角法线贴图和彩色图像,结合几何感知融合算法,在2-3分钟内输出高保真纹理网格。相比传统方法,其创新点包括:1)统一模型通过域切换器生成法线图和彩色图;2)跨域注意力机制确保多视角几何一致性;3)几何感知权重优化表面重建。实验表明,该方法在质量、速度和泛化性上均优于现有技术,为游戏、电商等领域提供了高效的3D生成方案。

文章图片
#3d#机器学习#深度学习 +2
(论文速读)基于深度学习的高稀疏Lamb波场复合材料损伤有效识别方法

一种基于深度学习的空间梯度重建方法,用于高效识别高稀疏Lamb波场复合材料损伤。针对碳纤维增强塑料(CFRP)中肉眼难以察觉的分层损伤,以及扫描激光多普勒测振仪(SLDV)测量耗时的问题,该方法通过新型空间梯度损伤指标和神经网络技术实现了显著改进。采用交叉注意技术将浅层特征直接注入解码器,增强异常检测能力,并集成多重建层指导波场重建过程。实验表明,该方法重建精度较现有技术大幅提升,单损伤情况下从7

文章图片
#人工智能#深度学习
(论文速读)SnapGen:驯服具有高效架构和训练的移动设备的高分辨率文本到图像模型

SnapGen提出了一种突破性的移动端文本生成图像技术,能在1.4秒内生成1024×1024像素的高质量图像。通过重新设计UNet架构(移除冗余自注意力、使用可分离卷积等)将参数量压缩至379M,比SDXL小7倍;采用多层次知识蒸馏和时间步感知训练策略,使小模型达到大模型性能;结合对抗性步蒸馏实现4-8步快速生成。实验显示其性能超越数十亿参数模型,在iPhone上实现秒级4K图像生成,为移动AI开

文章图片
#深度学习#人工智能#计算机视觉
(论文速读)SnapGen:驯服具有高效架构和训练的移动设备的高分辨率文本到图像模型

SnapGen提出了一种突破性的移动端文本生成图像技术,能在1.4秒内生成1024×1024像素的高质量图像。通过重新设计UNet架构(移除冗余自注意力、使用可分离卷积等)将参数量压缩至379M,比SDXL小7倍;采用多层次知识蒸馏和时间步感知训练策略,使小模型达到大模型性能;结合对抗性步蒸馏实现4-8步快速生成。实验显示其性能超越数十亿参数模型,在iPhone上实现秒级4K图像生成,为移动AI开

文章图片
#深度学习#人工智能#计算机视觉
(论文速读)ParaDiffusion:基于信息扩散模型的段落到图像生成

ParaDiffusion模型,解决长文本到图像生成中的语义对齐难题。通过微调LlamaV2语言模型并构建ParaImage数据集(包含330万自动生成和3000手工标注的段落-图像对),模型支持512个token的长文本输入。三阶段训练策略结合LoRA技术,在保持高效训练的同时提升生成质量。实验表明,该模型在ViLG-300和ParaPrompts基准上文本忠实度最高提升45%,优于SDXL等现

文章图片
#人工智能#计算机视觉#机器学习
(论文速读)探索多模式大型语言模型的视觉缺陷

《多模态大模型的视觉缺陷:CLIP盲点与改进方向》 摘要:CVPR 2024研究揭示了多模态大语言模型(MLLMs)的视觉理解存在系统性缺陷。通过分析CLIP视觉嵌入空间,研究者发现了"CLIP盲对"现象——视觉差异明显但CLIP认为相似的图像对。基于此构建的MMVP基准测试显示,包括GPT-4V在内的先进模型在9类基础视觉任务上表现不佳,准确率甚至低于随机猜测。研究表明,CL

文章图片
#人工智能#算法#深度学习 +3
(论文速读)一种基于双目视觉的机器人螺纹装配预对准姿态估计方法

一种基于双目视觉的机器人螺纹装配预对准新方法,通过几何分析利用螺纹孔倒角圆特征实现高精度姿态估计。创新性地仅需椭圆弦信息即可完成计算,避免了传统点云拟合的高复杂度。实验显示该方法在x、y、z轴的位置误差分别控制在0.0837mm、0.0864mm和0.0434mm以内,姿态误差1.279°,满足工业装配需求。相比传统方法,计算效率提升显著,且无需先验知识,具有更好的通用性和鲁棒性。该技术为自动化螺

文章图片
#人工智能#机器人#计算机视觉
(论文速读)使用文本到图像生成器的介入数据增强

探讨了利用文本到图像(T2I)生成器进行介入性数据增强的方法,以提高图像分类器在环境变化下的鲁棒性。针对单域泛化(SDG)和减少虚假特征依赖(RRSF)任务,研究系统评估了提示策略、条件机制和后处理过滤三个维度的影响。实验结果表明,现代T2I生成器(如Stable Diffusion)作为数据增强机制显著优于传统方法,其中纯文本生成方式表现最佳,且简单提示往往足够有效。该研究为数据增强提供了新范式

文章图片
#机器学习#计算机视觉#人工智能
    共 34 条
  • 1
  • 2
  • 3
  • 4
  • 请选择