logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

基于大语言模型实现文本端点检测

在语音对话识别中,一般使用VAD检测用户时候结束说话,但是这个结束时间长度设置多少合适,这很难抉择,太短了,用户说话慢就容易打断,太长了用户等待时间久。还有常见的情况,用户在说话的时候,中途停顿了一下思考,如果只是使用VAD检测,有可能就会认为说话结束,但是用户还没有说话,这句话也不完整。这种情况可以配合文本端点检测,在使用VAD检测的时候,配合文本端点检测,从而保证用户表达完整。

文章图片
#语言模型#人工智能#自然语言处理
白嫖AiStudio算力部署文心4.5开源大模型给Android调用

摘要 本文介绍了如何利用AiStudio平台免费算力部署文心4.5开源大模型,并搭建中转服务供Android设备调用。主要步骤包括:1) 在AiStudio注册并选择ERNIE-4.5-21B-A3B-Paddle模型进行部署;2) 获取API Key和base_url后,修改中转服务的OpenAI客户端配置;3) Android端通过HTTP请求访问中转服务,实现流式对话功能。该方法无需自有GP

文章图片
#android
文心4.5开源大模型的使用和部署

百度文心4.5系列大模型正式开源,包含10款不同规模的模型(0.3B到424B参数)。本文介绍了快速部署和使用方法:1)安装PaddlePaddle、FastDeploy等必要环境;2)提供Python代码示例实现本地对话功能;3)讲解如何启动API服务并兼容OpenAI接口格式。通过简单命令即可部署模型服务(默认端口8180),并支持使用标准openai库进行调用。文章还预告后续将补充Andro

#paddlepaddle
快速使用MASR V3版部署语音识别框架

主要介绍如何快速使用MASR语音识别框架训练和推理,本文将致力于最简单的方式去介绍使用。该框架支持多个语音识别模型,包含conformer等,每个模型都支持流式识别和非流式识别,以及多种解码器。更多功能等你发现。

文章图片
#语音识别#人工智能
快速使用PPASR V3版部署语音识别框架

主要介绍如何快速使用PPASR语音识别框架训练和推理,该框架支持多个语音识别模型,包含deepspeech2、conformer、squeezeformer、efficient_conformer等,每个模型都支持流式识别和非流式识别,以及多种解码器,包含ctc_greedy_search、ctc_prefix_beam_search、attention_rescoring、ctc_beam_se

文章图片
#语音识别#人工智能
仅需几秒音频钟即可克隆语音合成

本项目介绍了一个基于NeuTTS Air的快速语音克隆系统,用户可通过简短音频样本克隆任意语音。系统支持Windows/Linux/MacOS平台,提供GUI界面和HTTP服务接口两种使用方式,支持中文等多种语言,并能通过微调适配个性化需求。项目包含完整的环境搭建指南、音频克隆流程说明、微调模型方法以及可视化操作界面演示,用户可选择CPU或GPU进行推理,仅需3-15秒的干净音频样本即可实现高质量

文章图片
#音视频
NeuCodec-基于神经模型对音频极限压缩

NeuCodec是一种基于有限标量量化(FSQ)的低比特率(0.8kbps)音频编解码器,专为语音标记化设计。它可以将263KB的16kHz WAV文件压缩至仅2KB(压缩率100倍),同时支持还原为24kHz音频。该工具适用于训练高质量文本转语音模型的研究者,安装简单(pip install neucodec),提供编码和解码功能,并支持ONNXRuntime加速CPU解码。开源地址和论文分别位

#音视频
使用SenseVoice-Small搭建语音识别界面应用和服务

本文介绍了SenseVoice-Small多语言音频理解模型的使用方法,该模型支持语音识别、情感识别、声学事件检测等功能,涵盖中文、粤语、英语等多种语言。文章提供了Python代码示例展示如何快速实现语音识别,并重点介绍了配套的GUI界面工具和API服务。GUI工具支持音频/视频文件识别,可输出带时间戳的文本结果并导出为字幕文件;API服务则为其他设备调用提供接口。项目还包含网页测试界面,支持查看

文章图片
#语音识别#人工智能
IndexTTS2本地部署和使用

IndexTTS2是一款先进的零样本语音克隆模型,在情感表达和时长控制方面表现优异,适用于配音、有声读物等多种场景。项目提供三种使用方式:界面应用(gui_app.py)、WebUI(webui.py)和HTTP服务(infer_server.py),支持通过参考音频、情感向量或文本描述进行情感控制。用户可快速部署及使用,且模型对显存要求较低。环境搭建仅需安装PyTorch和相关依赖,项目已包含预

文章图片
#python#pytorch
鸿蒙应用开发-仿微信聊天对话对话信息列表

编写的是对列表的操作,如添加数据、获取列表大小,通过操作这个对象,控制列表显示。仿微信聊天对话对话信息列表,显示发送文本和接收文本,参考文档。

文章图片
#harmonyos#微信#华为 +1
    共 48 条
  • 1
  • 2
  • 3
  • 4
  • 5
  • 请选择