logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【对话推荐系统】Broadening the View: Demonstration-augmented Prompt Learning for CR

对话推荐系统(Conversational Recommender Systems, CRSs)利用自然语言对话来提供个性化的推荐。传统方法主要从孤立的对话中提取用户偏好,这往往导致生成的响应视角有限,局限于单个对话的范围。认识到集体对话示例的潜力,我们的研究提出了一种扩展的CRS模型方法,利用从对话历史和响应中选择的类比来丰富生成和推荐过程。这引入了重要的研究挑战,包括:(1)如何获取高质量的推

文章图片
#语言模型#论文阅读#人工智能 +1
【视频异常检测】Knowledge-Guided Textual Reasoning for Explainable Video Anomaly Detection via LLMs

本文提出了一种基于文本的可解释视频异常检测框架TbVAD,通过完全在文本域内完成异常检测与解释。该框架利用视觉-语言模型生成细粒度视频描述,构建包含动作、物体、上下文和环境四个维度的结构化知识,并通过槽位级重要性分析实现可解释推理。实验表明,在UCF-Crime和XD-Violence数据集上,TbVAD不仅提高了检测准确性,还能生成易于理解的异常解释。该方法突破了传统视觉特征的限制,为低分辨率监

文章图片
#音视频#论文阅读#深度学习 +1
【视频异常检测】MoniTor: Exploiting Large Language Models with Instruction for Online VAD

视频异常检测(VAD)旨在定位视频中不寻常的活动或行为。近年来,离线视频异常检测已受到大量研究关注 —— 大型语言模型(LLMs)和视觉 - 语言模型(VLMs)的发展为更细致地理解异常现象提供了可能,进一步推动了该领域的研究。然而,受实时性约束和计算复杂度的影响,在线视频异常检测鲜少得到关注。本文提出一种基于记忆的在线评分队列方案,用于无训练视频异常检测(MoniTor),以解决在线视频异常检测

文章图片
#语言模型#人工智能#论文阅读 +2
【对话推荐系统】Towards Unified Conversational Recommender Systems via Knowledge-Enhanced Prompt Learning

对话式推荐系统(CRS)旨在通过自然语言对话主动获取用户偏好并推荐高质量的项目。通常,CRS由一个推荐模块(为用户预测偏好项目)和一个对话模块(生成适当的回应)组成。为了开发一个有效的CRS,无缝集成这两个模块至关重要。现有的工作要么设计语义对齐策略,要么在两个模块之间共享知识资源和表示。然而,这些方法仍然依赖于不同的架构或技术来开发这两个模块,使得有效的模块集成变得困难。为了解决这个问题,我们提

文章图片
#语言模型#论文阅读#人工智能 +1
【情感识别】SECap: Speech Emotion Captioning with Large Language Model 论文阅读

语音情感在人类交流中至关重要,并广泛应用于语音合成和自然语言理解等领域。大多数先前的研究,如语音情感识别,已将语音情感分类为固定的类别集。然而,人类语音中表达的情感往往很复杂,将其分类为预定义的组别可能不足以充分表示语音情感。相反,通过自然语言直接描述语音情感可能是一种更有效的方法。遗憾的是,目前专注于这一方向的研究并不多。因此,本文提出了一种名为SECap的语音情感描述框架,旨在使用自然语言有效

文章图片
#语言模型#论文阅读#人工智能 +3
【视频异常检测】PANDA: Towards Generalist Video Anomaly Detection via Agentic AI Engineer

PANDA是一种基于多模态大语言模型的通用视频异常检测系统,通过四大核心能力实现无需训练数据或人工干预的开放场景异常检测:(1)自适应场景感知策略规划,利用检索增强生成机制动态制定检测策略;(2)目标驱动的启发式推理,结合视觉增强工具进行结构化分析;(3)工具增强型自我反思,在不确定时调用专用工具收集额外证据;(4)自我改进的记忆链机制,通过历史经验持续优化性能。实验表明,PANDA在开放场景下展

#人工智能#论文阅读#深度学习 +1
【弱监督视频异常检测】Learning Event Completeness for Weakly Supervised Video Anomaly Detection

弱监督视频异常检测(WS-VAD)的任务是利用仅包含视频级别标注的数据,在未修剪视频中精确定位包含异常事件的时间区间。然而,由于缺乏密集的帧级别标注,现有WS-VAD方法往往存在定位不完整的问题。针对这一挑战,我们提出了一种新颖的LEC-VAD方法——面向弱监督视频异常检测的事件完整性学习。该方法采用双分支结构,旨在编码视觉与语言之间兼具类别相关性和类别无关性的语义信息。在LEC-VAD框架内,我

文章图片
#音视频#论文阅读#深度学习 +1
【视频异常检测】Sherlock: Towards Multi-scene Video Abnormal Event Extraction and Localization via ...

先前关于视频异常检测(VAD)的研究主要集中在检测视频中每一帧是否异常,而很大程度上忽略了结构化的视频语义信息(即异常事件发生的内容、时间和地点)。基于此,我们提出了一种新的聊天范式多场景视频异常事件提取与定位(M-VAE)任务,旨在提取异常事件四元组(即主体、事件类型、对象、场景)并定位此类事件。此外,本文认为这项新任务面临两个关键挑战,即全局-局部空间建模和全局-局部空间平衡。为此,本文提出了

文章图片
#音视频#论文阅读#深度学习 +1
【视频异常检测】PANDA: Towards Generalist Video Anomaly Detection via Agentic AI Engineer

PANDA是一种基于多模态大语言模型的通用视频异常检测系统,通过四大核心能力实现无需训练数据或人工干预的开放场景异常检测:(1)自适应场景感知策略规划,利用检索增强生成机制动态制定检测策略;(2)目标驱动的启发式推理,结合视觉增强工具进行结构化分析;(3)工具增强型自我反思,在不确定时调用专用工具收集额外证据;(4)自我改进的记忆链机制,通过历史经验持续优化性能。实验表明,PANDA在开放场景下展

#人工智能#论文阅读#深度学习 +1
【视频异常检测】Knowledge-Guided Textual Reasoning for Explainable Video Anomaly Detection via LLMs

本文提出了一种基于文本的可解释视频异常检测框架TbVAD,通过完全在文本域内完成异常检测与解释。该框架利用视觉-语言模型生成细粒度视频描述,构建包含动作、物体、上下文和环境四个维度的结构化知识,并通过槽位级重要性分析实现可解释推理。实验表明,在UCF-Crime和XD-Violence数据集上,TbVAD不仅提高了检测准确性,还能生成易于理解的异常解释。该方法突破了传统视觉特征的限制,为低分辨率监

文章图片
#音视频#论文阅读#深度学习 +1
    共 25 条
  • 1
  • 2
  • 3
  • 请选择