logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

【OpenClaw】基于火山引擎和飞书部署 OpenClaw 教程

本文提供了在火山引擎和飞书平台上部署OpenClaw机器人的详细教程。主要内容包括: 在火山引擎创建ECS服务器,选择按量计费或包年包月方式,配置安全防护和登录密码。 开通方舟大模型服务,获取Model ID和API Key等必要配置信息。 在飞书平台创建应用并添加机器人能力,配置所需权限,包括消息读写、卡片操作等基础权限。 教程提供了详细的截图指引,帮助用户快速完成OpenClaw机器人的部署配

文章图片
#火山引擎#语言模型#人工智能
【OpenClaw】基于火山引擎和飞书部署 OpenClaw 教程

本文提供了在火山引擎和飞书平台上部署OpenClaw机器人的详细教程。主要内容包括: 在火山引擎创建ECS服务器,选择按量计费或包年包月方式,配置安全防护和登录密码。 开通方舟大模型服务,获取Model ID和API Key等必要配置信息。 在飞书平台创建应用并添加机器人能力,配置所需权限,包括消息读写、卡片操作等基础权限。 教程提供了详细的截图指引,帮助用户快速完成OpenClaw机器人的部署配

文章图片
#火山引擎#语言模型#人工智能
【MOSS-TTS】一款适用于实际应用的TTS基础模型

MOSS-TTS是由MOSI.AI和OpenMOSS团队推出的开源语音生成模型家族,专注于声音克隆、超长稳定语音生成、词元级时长控制等特性。该模型支持20种语言,提供8B和1.7B两种架构版本,以及1.6B的音频标记器。用户可通过ModelScope、GitHub或Hugging Face获取模型,并支持安装FlashAttention 2以提升性能。环境配置简单,支持CUDA加速,提供详细的安装

WAV音频文件解析与Python读取

WAV音频文件解析与Python读取本文相似解析了WAV格式的头部信息,并用Python通过wave或者struct模块解析并读取WAV音频内容。WAV(波形声音文件)是最常见的声音文件格式之一,是微软公司专门为Windows开发的一种标准数字音频文件,该文件能记录各种单声道或立体声的声音信息,并能保证声音不失真。

文章图片
#python
实时语音转写大模型API对比

本文对比了豆包和讯飞两大实时语音转写大模型API,从准确率、功能、费用等方面进行分析。测试结果显示豆包准确率最高(4.8分),支持中英+5种方言,价格2.4-4元/小时,企业用户享有20小时免费时长;讯飞支持更多方言但准确率较低(1分),价格2-4.95元/小时。功能上讯飞支持角色分离和16个领域,豆包不支持。综合推荐豆包API,其流式异步模式识别效果稳定,更适合企业应用场景。

文章图片
#语音识别
centos7安装docker和docker compose

centos7安装docker和docker compose,docker可以使用GPU

文章图片
#docker
【ASR数据集】中文方言ASR数据集KeSpeech实测:开源模型对决,FireRedASR性能遥遥领先!

KeSpeech数据集覆盖普通话及北京、西南、中原、东北、兰银、江淮、冀鲁、胶辽宫8 种方言。在开源 ASR 模型测试中,中文以字错误率(CER)为指标,FireRedASR 表现最优,总 CER 仅 4.7511,显著优于其他模型;Qwen2-Audio、Paraformer、Dolphin 性能相近,总 WER 在 11-13 区间;Whisper 与 PaddleSpeech 表现较弱,总

文章图片
#语音识别
【ASR数据集】中文语音ASR测试集

本文汇总了多个中文ASR测试数据集的基本信息,包括AISHELL-1、AISHELL-2、WenetSpeech、Common Voice、MAGICDATA-READ和MAGICDATA-RACM。提供了各数据集的论文链接、测试集规模等关键信息。详细介绍了每个数据集的数据来源、展示了测试集提取方式以及数据集处理代码样例,如音频路径和文本标签的提取方法。这些标准化的测试集对中文语音识别系统的评估和

文章图片
#语音识别
【vLLM 最新版v0.10.2】docker运行openai服务与GGUF量化使用方式

本文介绍 vLLM v0.10.2 版本通过 Docker 运行 OpenAI 服务及 GGUF 量化的使用方式,明确该量化不支持多模态模型,且仅节约显存、不提升速度。GGUF 量化需要 llama.cpp 环境,接着将 Hugging Face 模型转为 FP16 格式 GGUF,再量化为 Q4_0 等类型(文中列多种支持的量化类型),最后通过 Docker 启动量化后的模型,同样提供了测试请求

文章图片
#docker#容器#语言模型
whisper相关项目的安装与使用

whisper是一种通用的语音识别模型。它在不同音频的大型数据集上训练。它也是一个多任务模型,可以执行多语种语音识别、语音翻译语音语种识别。openai-whisper的安装与使用faster-whisper的安装与使用并对比了两个项目

文章图片
#语音识别
    共 22 条
  • 1
  • 2
  • 3
  • 请选择