
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
基础教程类,指导Hermes Agent用户如何按照Taotoken文档要求,在配置文件中将provider设置为custom,并正确填写base_url与api_key等参数,完成与Taotoken平台的对接,使Hermes能够通过统一的接口调用平台上的多种大模型服务。
🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。👉。
🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。👉。
人声分离是将混合音频中的人声和背景音乐分离的过程。目前比较流行的人声分离算法模型包括:音频分解技术:NMF (Non-negative Matrix Factorization)、Sparse Coding、DICT统计方法:GMM (Gaussian Mixture Model)、HMM (Hidden Markov Model)基于神经网络的方法:Deep Learning、CNN (...
本文介绍了如何在星图GPU平台上自动化部署RVC语音转换镜像,快速搭建AI变声环境。用户无需复杂配置,即可利用该框架进行声音克隆与转换,轻松实现歌曲翻唱、个性化配音等创意应用,大幅降低了AI语音技术的使用门槛。
本文介绍了如何在星图GPU平台上自动化部署Qwen3-TTS-12Hz-1.7B-Base镜像,体验其流式语音合成功能。该平台简化了部署流程,用户可快速搭建环境,并通过Web界面轻松实现实时语音生成,典型应用于智能客服、语音助手等需要低延迟语音交互的场景。
本文介绍了如何在星图GPU平台上自动化部署GLM-ASR-Nano-2512镜像,快速搭建支持WebSocket长连接的实时流式语音识别服务。该服务能够实现毫秒级延迟的语音转文字,典型应用场景包括为视频会议或在线直播提供实时字幕,显著提升沟通效率与观看体验。
基于ADXL345加速度传感器与语音识别的跌倒检测系统,通过失重、撞击、静止三阶段判断体态变化,结合本地关键词识别提升准确性,实现低功耗、无感监护的自动呼救方案。
开源语音识别软件有很多种, 下面列举几种常见的:Kaldi: 是一种用于语音识别的开源工具包, 支持多种语言, 并且在处理大规模语料库方面有较好的表现.HTK: 是一个用于语音识别、语音合成和语音处理的开源工具包, 支持多种语言.Julius: 是一个用于语音识别的开源软件, 支持日语和英语.Sphinx: 是一个用于语音识别的开源工具包, 支持多种语言.CMUCLMTK: 是...
Fun-ASR WebUI让语音转文字变得简单高效,无需编程基础,本地运行保障隐私。内置中文优化模型和热词增强功能,支持批量处理与历史管理,实测在会议录音、访谈等场景中表现优异,特别适合教育、法务、企业办公等中文使用环境。







