logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

CFPRF:一种用于音频时间伪造检测和定位的框架

本文引入了一种新颖的两阶段框架,称为粗到细的提议细化框架(CFPRF),用于音频时间伪造检测和定位(TFDL)。与现有的音频PFD方法不同,作者利用第一阶段的帧级检测网络(FDN)来学习鲁棒的表示,以更好地指示大致的伪造区域,并在第二阶段使用提议细化网络(PRN)来产生细粒度的提议。

文章图片
#音视频#人工智能#机器学习 +3
从功能性磁共振成像(fMRI)数据重建音频

受到声学到语义流的启发,我们模拟了听觉处理路径的每个生理结构,并提出了一种相反的从粗到细的音频重建方法。我们使用非侵入性fMRI作为神经信号。首先,进行一个从粗到细的大脑解码过程。我们将fMRI数据解码到低维CLAP空间以获得粗粒度的语义特征,然后在这些语义特征的引导下,我们将fMRI数据解码到高维AudioMAE潜在空间以获得精细的声学特征。接下来,我们使用解码的精细神经特征作为条件,通过潜在扩

文章图片
#音视频#语音识别#人工智能 +2
通过双模式对抗提示越狱视觉语言模型

本文介绍了双模态对抗性提示攻击(BAP),这是一种新的框架,通过同时优化视觉和文本提示来越狱LVLMs。

文章图片
#语言模型#人工智能#自然语言处理 +3
语音控制系统的安全挑战与防御策略(下)

活性检测已成为VCS中一种普遍的防御策略,主要设计用来确定语音命令是否来自真实的人类。这种方法背后的基本前提是,大多数恶意命令都是机器生成的。这些命令通常通过扬声器播放或直接通过音频文件(如WAV文件)输入到VCS API中。与这些人工产生的命令不同,真正的人类用户不会以这种方式生成语音命令。因此,通过识别人类语音的特征,活性检测旨在过滤掉这些非人类、机器生成的输入,从而增强VCS的安全性。

文章图片
#安全#语音识别#人工智能
如何使用语音情感基座模型emotion2vec+

2024年5月,语音情感基座模型emotion2vec的新版本发布emotion2vec+。emotion2vec+ 的迭代过程最终是在 160,000 小时的语音情感数据中筛选出 40,000 小时的数据来训练 emotion2vec+ large 模型。emotion2vec+在HuggingFace的表现明显超过其他高下载开源机型。

文章图片
#语音识别#人工智能#音视频 +1
AI周报(9.1-9.7)

AI应用-Tidal 引领海洋养殖革命、AI人物-凯文.凯利 AI时代的三大预测、AI工具-豆包爱学 给家长减负、AI书籍-《智能的本质》人工智能领域的巅峰之作

文章图片
#人工智能#机器学习#神经网络 +1
小米Vela:端侧AI推理框架

小米Vela系统能够支持轻量化的端侧AI大模型,这意味着即使在资源受限的设备上也能运行复杂的AI模型。这主要得益于其对多种硬件规格的适配能力,包括最小系统仅需8KB内存,并且CPU主频不限,适配任意SoC多核架构。

文章图片
#人工智能#物联网#机器学习 +1
ANAH数据集- 大模型幻觉细粒度评估工具

我们建立了一个新的大规模中英文基准测试,名为ANAH,它评估LLMs在基于知识的生成性问答场景中逐句注释LLMs幻觉的能力。与仅以结果为导向的方法不同,我们的方法促使模型对每个问题的答案进行注释,包括检索参考片段、判断幻觉类型(无/矛盾/无法验证的幻觉和无事实),如果存在幻觉,则根据参考片段纠正句子。

文章图片
#人工智能#机器学习
AI在医学领域:基础模型和视觉-语言模型在计算病理学应用概述

应对挑战,FMs和VLMs提供自动化工具和加速诊断过程来改变了病理学家的诊断工作流程。

文章图片
#人工智能#语言模型#自然语言处理 +3
SuperCLUE:中文大模型基准测评2024年上半年报告

SuperCLUE是一个中文通用大模型的综合性评测基准,其前身是CLUE(The Chinese Language Understanding Evaluation),自2019年成立以来,CLUE基准一直致力于提供科学、客观和中立的语言模型评测。SuperCLUE继承并发展了CLUE的测评体系,构建了一个多层次、多维度的综合性测评基准,以适应通用大模型在学术、产业与用户侧的广泛应用。

文章图片
#人工智能#机器学习#语言模型 +1
    共 41 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择