logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

保姆级超详细教程:语音识别模型 Dolphin 本地部署

由清华大学电子工程系语音与音频技术实验室联合海天瑞声(Dataocean AI)推出的,专为东方语言与中文方言优化。

#语音识别#人工智能
部署语音识别模型之SenseVoice

SenseVoice 是具有音频理解能力的音频基础模型,包括语音识别(ASR)、语种识别(LID)、语音情感识别(SER)和声学事件分类(AEC)或声学事件检测(AED)。它是 FunAudioLLM 框架中的核心组成部分之一,由阿里巴巴通义实验室及社区开源项目开发。

#语音识别#人工智能
sherpa-onnx:让安卓小白也能轻松完成Android端部署

文件内的 getOfflineModelConfig()函数中定义了所有可用模型的数据格式,它与官方模型库提供的模型一一对应。Sherpa-ONNX 的定位就是把这些工程问题“打包解决”:模型准备好(ONNX),你更关注业务逻辑。:真实应用往往要“VAD → KWS → ASR → 后处理 → 指令/意图”,需要工具链。由于官方给的例子为在线模式,即:Online,而我需要的是Android端离线

#android
部署语音识别模型之Whisper

Whisper 是一种自动语音识别 (ASR) 系统,根据从网络收集的 680,000 小时多语言和多任务监督数据进行训练。结果表明,使用这种大规模且多样化的数据集,能够提升模型在口音、背景噪音及专业术语方面的稳健性。此外,该模型还支持多种语言的转录,以及将这些语言翻译成英语。(摘自OpenAI官网。

#语音识别#人工智能
部署语音识别模型之SenseVoice

SenseVoice 是具有音频理解能力的音频基础模型,包括语音识别(ASR)、语种识别(LID)、语音情感识别(SER)和声学事件分类(AEC)或声学事件检测(AED)。它是 FunAudioLLM 框架中的核心组成部分之一,由阿里巴巴通义实验室及社区开源项目开发。

#语音识别#人工智能
MoonshineVoice:专为实时场景打造的开源语音识别

Moonshine Voice是一个开源、端侧(on-device)实时语音转文字/语音交互工具包,主打“低延迟流式识别隐私本地处理”,面向“边说边出字”的应用(直播字幕、会议速记、语音指令、嵌入式语音界面等)。项目详情定位边缘端实时流式 ASR 工具包(本地处理,无 API 密钥)代码仓库模型规模Tiny(26MB)→ Medium(245MB),按需选型延迟表现基准低至 50–258ms,比

#语音识别#人工智能
Tokenizer-语音识别模型的重要组件

Tokenizer 是自然语言处理系统中不可或缺的一部分,它通过将文本转换为模型可以理解的格式,解决了语言的多样性和复杂性问题。根据任务需求和语言模型的不同,选择合适的Tokenizer非常关键。通过子词、字符或基于空格的分词方法,可以提高模型的效率、泛化能力和处理未知词汇的能力。

#语音识别#nlp#人工智能
Microsoft C++ Build Tools安装教程详细版

由于我在部署语音识别模型时遇到了需要C++编译环境的问题,因此学习安装并写一个教程。当你在 Windows 下安装某些 Python 包(如说明该包需要本机 C/C++ 编译环境(MSVC)来编译扩展模块。按本教程安装后即可解决。

#microsoft#c++#开发语言
保姆级超详细教程:语音识别模型 Dolphin 本地部署

由清华大学电子工程系语音与音频技术实验室联合海天瑞声(Dataocean AI)推出的,专为东方语言与中文方言优化。

#语音识别#人工智能
Whisper 转 ONNX 教程

此前我们已完成 Whisper 模型的基础部署,而出于工程化落地的硬性要求,需将该模型转换为ONNX 格式进行部署,现将详细阐述 Whisper 模型转 ONNX 的实现流程。在之前Whisper部署的虚拟环境的基础上需要另外安装以下依赖。--encoder:encoder onnx模型。--decoder:dncoder onnx模型。--tokens:token映射表。方法一:直接下载压缩包进

#语音识别
    共 16 条
  • 1
  • 2
  • 请选择