logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

为Hermes Agent配置Taotoken自定义供应商的详细流程

基础教程类,指导Hermes Agent用户如何按照Taotoken文档要求,在配置文件中将provider设置为custom,并正确填写base_url与api_key等参数,完成与Taotoken平台的对接,使Hermes能够通过统一的接口调用平台上的多种大模型服务。

开发ai智能体时如何利用taotoken灵活切换底层模型

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。👉。

使用 Taotoken 为 Claude Code 配置稳定 API 连接解决封号困扰

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。👉。

给我推荐20个比较流行的人声分离算法模型

人声分离是将混合音频中的人声和背景音乐分离的过程。目前比较流行的人声分离算法模型包括:音频分解技术:NMF (Non-negative Matrix Factorization)、Sparse Coding、DICT统计方法:GMM (Gaussian Mixture Model)、HMM (Hidden Markov Model)基于神经网络的方法:Deep Learning、CNN (...

#算法#深度学习#人工智能
RVC变声框架小白入门:从安装到变声,10分钟搞定声音克隆

本文介绍了如何在星图GPU平台上自动化部署RVC语音转换镜像,快速搭建AI变声环境。用户无需复杂配置,即可利用该框架进行声音克隆与转换,轻松实现歌曲翻唱、个性化配音等创意应用,大幅降低了AI语音技术的使用门槛。

Qwen3-TTS流式生成体验:实时语音合成演示

本文介绍了如何在星图GPU平台上自动化部署Qwen3-TTS-12Hz-1.7B-Base镜像,体验其流式语音合成功能。该平台简化了部署流程,用户可快速搭建环境,并通过Web界面轻松实现实时语音生成,典型应用于智能客服、语音助手等需要低延迟语音交互的场景。

GLM-ASR-Nano-2512实战教程:WebSocket长连接支持实时流式语音识别

本文介绍了如何在星图GPU平台上自动化部署GLM-ASR-Nano-2512镜像,快速搭建支持WebSocket长连接的实时流式语音识别服务。该服务能够实现毫秒级延迟的语音转文字,典型应用场景包括为视频会议或在线直播提供实时字幕,显著提升沟通效率与观看体验。

#语音识别
ADXL345加速度采集实现语音识别跌倒呼救

基于ADXL345加速度传感器与语音识别的跌倒检测系统,通过失重、撞击、静止三阶段判断体态变化,结合本地关键词识别提升准确性,实现低功耗、无感监护的自动呼救方案。

开源语音识别软件有哪些?

开源语音识别软件有很多种, 下面列举几种常见的:Kaldi: 是一种用于语音识别的开源工具包, 支持多种语言, 并且在处理大规模语料库方面有较好的表现.HTK: 是一个用于语音识别、语音合成和语音处理的开源工具包, 支持多种语言.Julius: 是一个用于语音识别的开源软件, 支持日语和英语.Sphinx: 是一个用于语音识别的开源工具包, 支持多种语言.CMUCLMTK: 是...

#语音识别#人工智能
零代码操作!Fun-ASR WebUI让语音识别变得如此简单

Fun-ASR WebUI让语音转文字变得简单高效,无需编程基础,本地运行保障隐私。内置中文优化模型和热词增强功能,支持批量处理与历史管理,实测在会议录音、访谈等场景中表现优异,特别适合教育、法务、企业办公等中文使用环境。

    共 487 条
  • 1
  • 2
  • 3
  • 49
  • 请选择