logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【Video Agent】(Arxiv2504)VideoExpert: Augmented LLM for Temporal-Sensitive Video Understanding

本文介绍VideoExpert,一种增强型多模态大语言模型(MLLM),用于时间敏感的视频理解任务。现有MLLM在时序定位等任务上表现不佳,主要依赖语言模式而非视觉线索生成时间戳。VideoExpert创新性地集成两个并行专家模块:Temporal Expert处理高帧率压缩特征以捕捉动态变化并实现精确事件定位;Spatial Expert专注于内容细节分析和指令跟随。通过特殊token <

文章图片
#人工智能#机器学习#transformer +2
【Video Agent】(Arxiv2504)VideoExpert: Augmented LLM for Temporal-Sensitive Video Understanding

本文介绍VideoExpert,一种增强型多模态大语言模型(MLLM),用于时间敏感的视频理解任务。现有MLLM在时序定位等任务上表现不佳,主要依赖语言模式而非视觉线索生成时间戳。VideoExpert创新性地集成两个并行专家模块:Temporal Expert处理高帧率压缩特征以捕捉动态变化并实现精确事件定位;Spatial Expert专注于内容细节分析和指令跟随。通过特殊token <

文章图片
#人工智能#机器学习#transformer +2
【Video Agent】(Arxiv2508)Video-EM: Event-Centric Episodic Memory for Long-Form Video Understanding

Video-EM提出了一种基于事件的情景记忆框架,用于解决长视频理解中的关键帧冗余和叙事碎片化问题。该方法通过多粒度语义匹配定位相关时刻,将其组织为时间连贯的事件,并编码为具身情景记忆(包含时空线索和实体信息)。通过推理驱动的自反思循环,系统迭代优化事件粒度,去除冗余,最终生成紧凑可靠的事件时间线。实验表明,Video-EM在使用更少帧数的情况下,显著提升了长视频问答性能,且兼容现有视频大语言模型

文章图片
#人工智能#自然语言处理#计算机视觉 +2
大语言模型系统:【CMU 11-868】课程学习笔记06——Transformer学习(Transformer)

本文总结了CMU 11-868课程中Transformer架构的核心内容。Transformer采用编码器-解码器结构,通过自注意力机制实现并行计算和全上下文捕捉。关键组件包括词嵌入、位置编码、多头注意力(通过缩放点积计算并分割多个头)、前馈网络(含ReLU激活)以及残差连接与层归一化。解码器使用掩码注意力防止信息泄露。训练采用交叉熵损失函数,原始模型配置为6层编码/解码器,512/1024维嵌入

文章图片
#语言模型#学习
【Video Agent】(Arxiv2601,Meta)Agentic Very Long Video Understanding

本文介绍Meta新作EGAgent。EGAgent是一种基于实体场景图的智能体框架,用于解决超长视频理解任务。该方法通过构建人物、物体和地点之间的时空关系图,结合视觉和音频搜索工具,实现对连续数天视频的多模态推理。实验表明,EGAgent在EgoLifeQA和Video-MME(Long)数据集上分别达到57.5%和74.1%的准确率,显著优于现有方法。该研究为可穿戴设备AI助手的长时记忆和推理能

文章图片
#论文阅读#音视频#计算机视觉 +1
【Video Agent】(Arxiv2601)VideoThinker: Building Agentic VideoLLMs with LLM-Guided Tool Reasoning

VideoThinker提出了一种基于合成工具交互轨迹训练的智能体式视频大语言模型(VideoLLM),旨在解决长视频理解中的信息丢失和时间定位问题。该方法通过将视频转换为文本描述,利用大语言模型生成多步工具使用序列,再映射回真实视频帧,构建交错式视频推理数据集。设计了时间检索和时间缩放两类工具,支持动态推理和自适应时间探索。实验表明,VideoThinker在长视频基准上显著优于现有方法,验证了

文章图片
#人工智能
大语言模型系统:【CMU 11-868】课程学习笔记05——深度学习框架设计(Deep Learning Framework Design)

CMU 11-868课程笔记05探讨了深度学习框架设计的关键要素。以TensorFlow为例,分析了其核心设计理念:通过数据流图表达机器学习计算,支持张量运算、自动微分和分布式训练。课程对比了主流框架(PyTorch、TensorFlow、JAX)在编程范式、硬件支持等方面的差异,并详细讲解了计算图中的变量节点、占位符和运算节点的实现机制。笔记还阐述了深度学习框架的设计原则,包括两阶段执行(定义程

文章图片
#语言模型#学习#论文阅读 +3
【Video Agent】(NeurIPS 2025)VideoLucy: Deep Memory Backtracking for Long Video Understanding

本文介绍NeurIPS 2025发表的VideoLucy论文,VideoLucy通过层次化记忆结构和迭代回溯机制解决长视频理解的两大挑战。受人类记忆启发,该系统采用渐进细化的记忆层级,在不同时间范围内动态调整细节粒度。通过多智能体协作的迭代回溯过程,VideoLucy能够全面覆盖视频内容并捕捉时序关系。实验表明,该框架在多个基准上超越现有方法,包括GPT-4o等专有模型。同时提出的EgoMem基准

文章图片
#语言模型#人工智能#自然语言处理 +2
【Video Agent】(CVPR 2026)LongVT: Incentivizing “Thinking with Long Videos” via Native Tool Calling

本文介绍CVPR 2026提出的LongVT框架,通过交错式多模态工具思维链(iMCoTT)实现长视频理解。受人类全局浏览-局部验证策略启发,LongVT利用大模型原生时间定位能力作为视频裁剪工具,通过循环推理聚焦关键片段并减少幻觉。针对长视频推理中细粒度数据稀缺问题,作者构建了VideoSIAH数据集(包含26.5万样本)和评测基准,采用冷启动SFT+智能体RL+强化微调三阶段训练策略,在联合答

文章图片
#计算机视觉#人工智能#transformer
大语言模型系统:【CMU 11-868】课程学习笔记01——大模型介绍(Introduction to LLM)

【CMU 11-868】课程面向研究生开设,聚焦“从算法到工程”的大语言模型系统构建全过程。GPU 编程与自动微分:掌握 CUDA kernel 调用、并行编程基础,以及深度学习框架设计原理模型训练与分布式系统:学习高效的训练算法、通信优化(ZeRO、FlashAttention)、分布式训练框架(DDP、GPipe、Megatron-LM)。模型压缩与加速:量化(GPTQ)、稀疏化(MoE)、编

文章图片
#语言模型#学习#人工智能 +1
    共 27 条
  • 1
  • 2
  • 3
  • 请选择