夜雨飘零1 个人主页

@qq_33200967

夜雨飘零1

2022-11-25 15:42:30 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

基于大语言模型实现文本端点检测

在语音对话识别中，一般使用VAD检测用户时候结束说话，但是这个结束时间长度设置多少合适，这很难抉择，太短了，用户说话慢就容易打断，太长了用户等待时间久。还有常见的情况，用户在说话的时候，中途停顿了一下思考，如果只是使用VAD检测，有可能就会认为说话结束，但是用户还没有说话，这句话也不完整。这种情况可以配合文本端点检测，在使用VAD检测的时候，配合文本端点检测，从而保证用户表达完整。

#语言模型 #人工智能 #自然语言处理

白嫖AiStudio算力部署文心4.5开源大模型给Android调用

摘要本文介绍了如何利用AiStudio平台免费算力部署文心4.5开源大模型，并搭建中转服务供Android设备调用。主要步骤包括：1) 在AiStudio注册并选择ERNIE-4.5-21B-A3B-Paddle模型进行部署；2) 获取API Key和base_url后，修改中转服务的OpenAI客户端配置；3) Android端通过HTTP请求访问中转服务，实现流式对话功能。该方法无需自有GP

#android

文心4.5开源大模型的使用和部署

百度文心4.5系列大模型正式开源，包含10款不同规模的模型（0.3B到424B参数）。本文介绍了快速部署和使用方法：1)安装PaddlePaddle、FastDeploy等必要环境；2)提供Python代码示例实现本地对话功能；3)讲解如何启动API服务并兼容OpenAI接口格式。通过简单命令即可部署模型服务(默认端口8180)，并支持使用标准openai库进行调用。文章还预告后续将补充Andro

#paddlepaddle

快速使用MASR V3版部署语音识别框架

主要介绍如何快速使用MASR语音识别框架训练和推理，本文将致力于最简单的方式去介绍使用。该框架支持多个语音识别模型，包含conformer等，每个模型都支持流式识别和非流式识别，以及多种解码器。更多功能等你发现。

#语音识别 #人工智能

快速使用PPASR V3版部署语音识别框架

主要介绍如何快速使用PPASR语音识别框架训练和推理，该框架支持多个语音识别模型，包含deepspeech2、conformer、squeezeformer、efficient_conformer等，每个模型都支持流式识别和非流式识别，以及多种解码器，包含ctc_greedy_search、ctc_prefix_beam_search、attention_rescoring、ctc_beam_se

#语音识别 #人工智能

仅需几秒音频钟即可克隆语音合成

本项目介绍了一个基于NeuTTS Air的快速语音克隆系统，用户可通过简短音频样本克隆任意语音。系统支持Windows/Linux/MacOS平台，提供GUI界面和HTTP服务接口两种使用方式，支持中文等多种语言，并能通过微调适配个性化需求。项目包含完整的环境搭建指南、音频克隆流程说明、微调模型方法以及可视化操作界面演示，用户可选择CPU或GPU进行推理，仅需3-15秒的干净音频样本即可实现高质量

#音视频

NeuCodec-基于神经模型对音频极限压缩

NeuCodec是一种基于有限标量量化(FSQ)的低比特率(0.8kbps)音频编解码器，专为语音标记化设计。它可以将263KB的16kHz WAV文件压缩至仅2KB(压缩率100倍)，同时支持还原为24kHz音频。该工具适用于训练高质量文本转语音模型的研究者，安装简单(pip install neucodec)，提供编码和解码功能，并支持ONNXRuntime加速CPU解码。开源地址和论文分别位

#音视频

使用SenseVoice-Small搭建语音识别界面应用和服务

本文介绍了SenseVoice-Small多语言音频理解模型的使用方法，该模型支持语音识别、情感识别、声学事件检测等功能，涵盖中文、粤语、英语等多种语言。文章提供了Python代码示例展示如何快速实现语音识别，并重点介绍了配套的GUI界面工具和API服务。GUI工具支持音频/视频文件识别，可输出带时间戳的文本结果并导出为字幕文件；API服务则为其他设备调用提供接口。项目还包含网页测试界面，支持查看

#语音识别 #人工智能

IndexTTS2本地部署和使用

IndexTTS2是一款先进的零样本语音克隆模型，在情感表达和时长控制方面表现优异，适用于配音、有声读物等多种场景。项目提供三种使用方式：界面应用（gui_app.py）、WebUI（webui.py）和HTTP服务（infer_server.py），支持通过参考音频、情感向量或文本描述进行情感控制。用户可快速部署及使用，且模型对显存要求较低。环境搭建仅需安装PyTorch和相关依赖，项目已包含预

#python #pytorch

鸿蒙应用开发-仿微信聊天对话对话信息列表

编写的是对列表的操作，如添加数据、获取列表大小，通过操作这个对象，控制列表显示。仿微信聊天对话对话信息列表，显示发送文本和接收文本，参考文档。

#harmonyos #微信 #华为 +1

共 48 条

请选择