logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

解决Claude Code频繁封号与Token不足的Taotoken替代方案

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。👉。

解决claude code频繁封号与token不足的替代方案

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。👉。

应对Claude Code封号风险迁移至Taotoken保障开发连续性

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。👉。

C#语音识别与文本转语音的SAPI实现指南

语音交互技术已成为IT行业中最前沿且最吸引人的技术之一。它通过语音合成(Text-to-Speech,TTS)和语音识别(Speech-to-Text,STT)技术,实现了人机交互的自然化,极大增强了用户体验。在Windows平台上,Speech API(SAPI)是一种广泛使用的技术,它提供了一套丰富的语音识别和语音合成功能,允许开发者集成语音交互能力到自己的应用程序中。SAPI是一组语音技术的

QWEN-AUDIO实时语音合成:WebSocket流式传输+前端实时波形渲染

本文介绍了如何在星图GPU平台上自动化部署QWEN-AUDIO | 智能语音合成系统Web镜像,实现文字到语音的实时流式合成与前端波形可视化。用户可快速构建具备情绪表达能力的语音交互界面,典型应用于短视频配音、智能客服应答及教育课件语音生成等场景。

Qwen3-ASR-1.7B语音识别部署:支持SRT/VTT字幕导出→视频编辑工作流无缝集成

本文介绍了如何在星图GPU平台自动化部署Qwen3-ASR-1.7B语音识别镜像,实现高效的多语言语音转文字功能。该镜像支持自动生成SRT/VTT字幕文件,可无缝集成到视频编辑工作流中,大幅提升视频字幕制作效率,特别适用于视频创作者的字幕自动化处理需求。

#语音识别
大模型Token怎么卖?结合Fun-ASR语音识别做内容营销

通过本地化语音识别工具Fun-ASR,将会议、讲座等音频高效转为高质量文本,显著降低大模型输入成本。结合热词增强与ITN规整,提升识别准确率,实现安全、低成本、可批量的内容生产闭环,让每Token发挥最大价值。

OpenAI开源gpt-oss-120b/20b:单卡可跑的MoE推理模型

OpenAI推出gpt-oss-120b与20b两款混合专家Transformer模型,采用MXFP4量化技术,支持单卡运行,具备三级可调推理与工具调用能力。模型基于GPT-2/3架构优化,在指令遵循、代码执行和网页浏览等任务中表现强劲,同时默认集成安全策略,但建议下游部署时补充系统级防护。

开源语音识别模型Fun-ASR部署教程(附完整脚本)

Fun-ASR是一款开源、支持中文优化的本地化语音识别系统,具备WebUI界面、GPU加速和热词增强功能,适合会议记录、知识管理等场景。无需上传音频,保障数据隐私,同时支持批量处理与文本规整,显著提升语音转文字效率。

    共 368 条
  • 1
  • 2
  • 3
  • 37
  • 请选择