logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

如何使用Whisper语音识别模型

Whisper 是一个通用语音识别模型,由 OpenAI 开发。它可以识别多种语言的语音,并将其转换为文本。Whisper 模型采用了深度学习技术,具有高准确性和鲁棒性。

文章图片
#音视频#语音识别#人工智能 +2
阿里开源语音理解和语音生成大模型FunAudioLLM

阿里开源大模型FunAudioLLM,一个创新的框架,旨在促进人类与大型语言模型(LLMs)之间的自然语音交互。FunAudioLLM的核心是两个开创性的模型:用于语音理解的SenseVoice和用于语音生成的CosyVoice。

文章图片
#人工智能#机器学习#深度学习 +3
实践出真知-从了解工业AI(国外预测性维护供应商)说起

伴随 ChatGPT 带来的通用 AI 大模型突破,工业 AI 应用领域亦有望迎来快速发展。据德勤的研究,中国制造业人工智能应用市场规模在2025年有望超过140亿人民币,年均增长率超过40%,此次关注重点放在设备的预测维护分析上。

文章图片
#人工智能#运维#语音识别
人工智能 (AI) 应用:一个异常肺呼吸声辅助诊断系统

本文提出的Multi-breath模型在ICBHI 2017数据集上取得了59.2%的Score,优于现有轻量级模型,可以很好地提高自动异常呼吸音分类的准确性。

文章图片
#人工智能#语言模型#学习 +2
如何区分人工智能生成的图像与真实照片(下)

本指南的目标是帮助你培养对视觉不一致性的敏锐眼光,并校准你对图像是否由AI生成、真实或太模糊而无法在没有进一步信息的情况下知道的直觉。

文章图片
#人工智能#机器学习#深度学习 +2
语音控制系统的安全挑战与防御策略(下)

活性检测已成为VCS中一种普遍的防御策略,主要设计用来确定语音命令是否来自真实的人类。这种方法背后的基本前提是,大多数恶意命令都是机器生成的。这些命令通常通过扬声器播放或直接通过音频文件(如WAV文件)输入到VCS API中。与这些人工产生的命令不同,真正的人类用户不会以这种方式生成语音命令。因此,通过识别人类语音的特征,活性检测旨在过滤掉这些非人类、机器生成的输入,从而增强VCS的安全性。

文章图片
#安全#语音识别#人工智能
如何使用语音情感基座模型emotion2vec+

2024年5月,语音情感基座模型emotion2vec的新版本发布emotion2vec+。emotion2vec+ 的迭代过程最终是在 160,000 小时的语音情感数据中筛选出 40,000 小时的数据来训练 emotion2vec+ large 模型。emotion2vec+在HuggingFace的表现明显超过其他高下载开源机型。

文章图片
#语音识别#人工智能#音视频 +1
如何选择一个最强大模型-看最硬核排名了!

该平台采用匿名、随机的方式让不同的大模型产品进行对抗评测,基于国际象棋等竞技游戏中广泛使用的埃洛等级分系统,通过用户投票产生,系统每次会随机选择两个不同的大模型机器人和用户聊天,并让用户在匿名的情况下选择哪款大模型产品的表现更好一些。在盲测平台https://arena.lmsys.org/上,大模型们两两相比,用户自主输入对大模型的提问,模型A、模型B两侧分别生成两PK模型的真实结果,用户在结果

文章图片
#语音识别#人工智能#音视频 +2
生成性人工智能模型:行业和当局的机会和风险

通过本出版物面向考虑在其工作流程中使用生成性AI模型的公司和当局,以提高对这些模型的基本安全意识,并促进它们的安全使用。为此,除了机会外,它还突出了与生成性AI模型相关的最显著的当前危险、在规划和开发阶段、运营阶段以及使用生成性AI模型过程中可能出现的风险,以及与整个模型生命周期相关的可能的对策。

文章图片
#人工智能#机器学习#深度学习 +1
    共 36 条
  • 1
  • 2
  • 3
  • 4
  • 请选择