logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

仅需几秒音频钟即可克隆语音合成

本项目介绍了一个基于NeuTTS Air的快速语音克隆系统,用户可通过简短音频样本克隆任意语音。系统支持Windows/Linux/MacOS平台,提供GUI界面和HTTP服务接口两种使用方式,支持中文等多种语言,并能通过微调适配个性化需求。项目包含完整的环境搭建指南、音频克隆流程说明、微调模型方法以及可视化操作界面演示,用户可选择CPU或GPU进行推理,仅需3-15秒的干净音频样本即可实现高质量

文章图片
#音视频
NeuCodec-基于神经模型对音频极限压缩

NeuCodec是一种基于有限标量量化(FSQ)的低比特率(0.8kbps)音频编解码器,专为语音标记化设计。它可以将263KB的16kHz WAV文件压缩至仅2KB(压缩率100倍),同时支持还原为24kHz音频。该工具适用于训练高质量文本转语音模型的研究者,安装简单(pip install neucodec),提供编码和解码功能,并支持ONNXRuntime加速CPU解码。开源地址和论文分别位

#音视频
使用SenseVoice-Small搭建语音识别界面应用和服务

本文介绍了SenseVoice-Small多语言音频理解模型的使用方法,该模型支持语音识别、情感识别、声学事件检测等功能,涵盖中文、粤语、英语等多种语言。文章提供了Python代码示例展示如何快速实现语音识别,并重点介绍了配套的GUI界面工具和API服务。GUI工具支持音频/视频文件识别,可输出带时间戳的文本结果并导出为字幕文件;API服务则为其他设备调用提供接口。项目还包含网页测试界面,支持查看

文章图片
#语音识别#人工智能
IndexTTS2本地部署和使用

IndexTTS2是一款先进的零样本语音克隆模型,在情感表达和时长控制方面表现优异,适用于配音、有声读物等多种场景。项目提供三种使用方式:界面应用(gui_app.py)、WebUI(webui.py)和HTTP服务(infer_server.py),支持通过参考音频、情感向量或文本描述进行情感控制。用户可快速部署及使用,且模型对显存要求较低。环境搭建仅需安装PyTorch和相关依赖,项目已包含预

文章图片
#python#pytorch
鸿蒙应用开发-仿微信聊天对话对话信息列表

编写的是对列表的操作,如添加数据、获取列表大小,通过操作这个对象,控制列表显示。仿微信聊天对话对话信息列表,显示发送文本和接收文本,参考文档。

文章图片
#harmonyos#微信#华为 +1
仅需几秒音频钟即可克隆语音合成

本项目介绍了一个基于NeuTTS Air的快速语音克隆系统,用户可通过简短音频样本克隆任意语音。系统支持Windows/Linux/MacOS平台,提供GUI界面和HTTP服务接口两种使用方式,支持中文等多种语言,并能通过微调适配个性化需求。项目包含完整的环境搭建指南、音频克隆流程说明、微调模型方法以及可视化操作界面演示,用户可选择CPU或GPU进行推理,仅需3-15秒的干净音频样本即可实现高质量

文章图片
#音视频
使用PaddlePaddle实现人脸对比和人脸识别

训练代码以下是训练代码,直接复制到每一个代码框,按照顺序运行就可以了。# 下载提交数据的工具!wget -nv -O kesci_submit https://cdn.kesci.com/submit_tool/v1/kesci_submit&&chmod +x kesc

#人脸识别
基于PaddlePaddle实现的目标检测模型PP-YOLOE

本项目是基于[PaddleDetection](https://github.com/PaddlePaddle/PaddleDetection)实现的PP-YOLOE,PP-YOLOE是单阶段Anchor-free模型,其精度(COCO数据集mAP)和推理速度均优于YOLOv5模型,PP-YOLOE在COCO test-dev2017数据集上精度达到49.0%,在单卡V100上FP32推理速度为1

#深度学习#人工智能#paddlepaddle +2
基于insightface实现的人脸识别和人脸注册

为了方便,写一个类完成所有的识别流程,开始编写人脸识别和人脸注册工具类,使用`insightface.app.FaceAnalysis()`可以获取模型对象,这里包含了三个模型,首先是人脸检测模型,然后是人脸特征提取模型,和最后的性别年龄识别模型。使用`model.prepare()`可以配置`ctx_id`指定使用哪一块GPU,如果是负数则是使用CPU执行预测,`det_thresh`配置的是人

#人脸识别#深度学习#mxnet +1
《PaddlePaddle从入门到炼丹》十——VisualDL 训练可视化

VisualDL是一个面向深度学习任务设计的可视化工具,包含了scalar、参数分布、模型结构、图像可视化等功能。可以这样说:“所见即所得”。我们可以借助VisualDL来观察我们训练的情况,方便我们对训练的模型进行分析,改善模型的收敛情况。

#深度学习
    共 51 条
  • 1
  • 2
  • 3
  • 6
  • 请选择