
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
文章摘要 本项目开发了一套离线ASR(自动语音识别)接口系统,面向金融、政府机构等对数据安全要求高的场景,避免公网传输风险。系统采用分布式架构,核心基于Celery异步框架和Redis消息队列实现生产者-消费者模型,支持多服务器多显卡并行处理。技术栈包含FastAPI接口层、MinIO对象存储集成,具备以下特点:1. 完全内网部署保障数据安全;2. 可替代云端ASR服务降低成本;3. 分布式扩展能

本篇文章主要介绍了如何在服务器中部署基于AI大模型的本地知识库问答系统,利用RAG技术解决大模型无法回答私有化知识内容的问题。

摘要:本文介绍了一个基于FunASR开发的智能语音转写系统,能够同时实现语音识别和说话人区分功能。系统支持在有无显卡环境下部署(推荐NVIDIA显卡),具备用户隔离、声纹注册、热词自定义、结果修正等特性,其中声纹注册和管理员审批确保了系统安全性。测试显示在3090Ti显卡上19分钟音频处理时间不足1分钟。系统适用于会议录音、访谈等场景,结合大模型还能实现内容摘要功能。项目已在B站发布演示视频,支持

这是一个国内大厂开源的ASR模型,这篇文章主要讲述如何微调SenseVoice和Paraformer模型使得可以准确识别专业名词。

针对某些新的词汇,开源的ASR模型都无法识别,那么这个时候,我们就需要使用专业词汇进行微调了,这篇文章将会告诉你如果微调ASR模型,提升模型对专业名词识别的准确率。

无论是开源的ASR还是收费的ASR都面临着一个问题,就是识别专有名词不准的问题,比如我这里可以基于阿里巴巴开源的FunASR项目中的SenseVoiceSmall模型做微调训练,使得可以准确识别特定领域内的名词,从而提升整体的准确率。

本文介绍了基于阿里开源FunASR开发的语音识别API项目FunASR_API。该项目支持Linux、MacOS和Windows系统,通过FastAPI提供HTTP接口,数据存储于MySQL,可被Java、C++、PHP等多种语言调用。文档详细说明了环境配置步骤,包括安装显卡驱动、CUDA、FFmpeg和Miniconda,创建Python虚拟环境并安装依赖库。项目提供三个核心接口:/asr用于直
这篇文章主要讲述了如何利用阿里开源的FunASR工具来训练一个方言ASR模型。其中讲到了如何准备数据,如何设置参数,如何训练,如何评估。

本篇文章主要介绍了如何在服务器中部署基于AI大模型的本地知识库问答系统,利用RAG技术解决大模型无法回答私有化知识内容的问题。

基于funasr实现的可以分离一条录音中不同的说话人的声音,并且支持进行合成相同说话人的声音为一条音频,同时支持视频切片处理。








