logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

IIoT(智能物联网)的现状、应用及安全

智能解决方案与ML/AI在IoT网络中的整合形成了一种新的网络范式,即智能物联网(IIoT)。IIoT已经改变了智能医疗保健、智能交通和智能工业等IoT应用。特别是,IIoT为设备进步打开了众多机会,例如为本地IoT设备配备由集成AI模型驱动的设备智能,以及服务提供,包括智能数据传输和AI辅助的数据处理。

文章图片
#物联网#安全#人工智能 +2
如何区分人工智能生成的图像与真实照片(下)

本指南的目标是帮助你培养对视觉不一致性的敏锐眼光,并校准你对图像是否由AI生成、真实或太模糊而无法在没有进一步信息的情况下知道的直觉。

文章图片
#人工智能#机器学习#深度学习 +2
可解释人工智能(XAI)领域的全面概述

本文提供一份关于 XAI 的全面综述,涵盖常见的术语和定义、XAI 的需求、XAI 的受益者、XAI 方法分类以及 XAI 方法在不同应用领域的应用。

文章图片
#人工智能#神经网络#机器学习 +1
深度伪造音频普遍检测的Codecfake数据集和对策

有效检测基于ALM的深度伪造音频,我们从以下三个维度进行优化:专注于ALM基于音频生成方法的机制、构建Codecfake数据集、采用CSAM策略。

文章图片
#音视频#语音识别#AIGC +2
如何使用语音情感基座模型emotion2vec+

2024年5月,语音情感基座模型emotion2vec的新版本发布emotion2vec+。emotion2vec+ 的迭代过程最终是在 160,000 小时的语音情感数据中筛选出 40,000 小时的数据来训练 emotion2vec+ large 模型。emotion2vec+在HuggingFace的表现明显超过其他高下载开源机型。

文章图片
#语音识别#人工智能#音视频 +1
如何使用Whisper语音识别模型

Whisper 是一个通用语音识别模型,由 OpenAI 开发。它可以识别多种语言的语音,并将其转换为文本。Whisper 模型采用了深度学习技术,具有高准确性和鲁棒性。

文章图片
#音视频#语音识别#人工智能 +2
MER 2024 第二届多模态情感识别挑战赛

今年MER2024除了扩大数据集的大小,引入了一个新的开放式词汇情绪识别赛道MER-OV。这个赛道的主要考虑是现有数据集通常固定标签空间,并使用多数投票来增强注释者的一致性,但这个过程可能限制了模型描述微妙情绪的能力。在这个赛道中,我们鼓励参与者生成任意数量的标签,在任何类别中,目标是尽可能准确地描述情绪状态。

文章图片
#人工智能#算法#机器学习
深度伪造语音检测(Deepfake Speech Detection, DSD)全面概述

本文专注于人类语音,提供了深度伪造语音检测(DSD)任务全面概述。

文章图片
#人工智能#安全威胁分析#机器学习 +1
FastSpeech 2整体结构、模块配置及优化

FastSpeech 的改进版 FastSpeech 2,抛弃了 Teacher-Student 知识蒸馏框架降低训练复杂度,直接用真实的语音数据作为训练目标避免信息损失,同时引入了更精确的时长信息和语音中的其它可变信息(包括音高(Pitch)和音量(Energy)等)来提高合成的语音质量。

文章图片
#语音识别#人工智能
如何区分人工智能生成的图像与真实照片(上)

本指南的目标是帮助你培养对视觉不一致性的敏锐眼光,并校准你对图像是否由AI生成、真实或太模糊而无法在没有进一步信息的情况下知道的直觉。

文章图片
#人工智能#语言模型#自然语言处理 +3
    共 15 条
  • 1
  • 2
  • 请选择