logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

华为昇腾NPU能否兼容Llama-Factory?当前生态支持状况

华为昇腾NPU在特定条件下可运行Llama-Factory,但受限于算子支持、动态图稳定性和缺少bitsandbytes量化库,QLoRA等关键功能无法使用。当前适合有国产化需求、采用FP16+LoRA微调7B以下模型的场景,尚不满足大规模生产级应用。

Claude Code用户如何通过Taotoken解决封号与Token不足难题

🚀 告别海外账号与网络限制!稳定直连全球优质大模型,限时半价接入中。👉。

直播虚拟主播:GLM-TTS实时语音生成探索

本文介绍了基于星图GPU平台自动化部署GLM-TTS智谱开源的AI文本转语音模型 构建by科哥镜像的方法,实现高效、低延迟的实时语音合成。该镜像支持音色克隆与情感迁移,适用于虚拟主播语音生成、多语言直播配音及批量AI语音内容创作等场景,助力个性化数字人系统快速搭建。

GPT-SoVITS本地部署与AI音色克隆完整指南

手把手教你本地化部署GPT-SoVITS,实现低成本AI语音克隆。涵盖数据预处理、模型训练、推理合成及API调用全流程,适合零基础用户快速上手并灵活应用。

Qwen3-ASR-1.7B语音识别进阶:VAD前端点检测与音频预处理流程详解

本文介绍了如何在星图GPU平台上自动化部署Qwen3-ASR-1.7B语音识别模型v2,并重点解析了提升识别效果的关键——VAD前端点检测与音频预处理流程。通过优化VAD参数,该方案能有效过滤背景噪声,精准提取有效语音片段,显著提升会议录音、访谈等长音频场景下的转写准确率和处理效率。

#语音识别
智能客服对话系统:TensorFlow Seq2Seq实现

基于Seq2Seq模型与TensorFlow框架,构建可落地的智能客服系统。通过编码器-解码器结构和注意力机制,实现对用户自然语言的理解与专业回复生成,并结合NLU、对话管理与TF Serving部署,打造高效、可控、可扩展的工业级解决方案。

ollama下载gpt-oss-20b模型时常见问题及解决方案

本文深入分析使用Ollama下载gpt-oss-20b模型时常见的网络超时、磁盘空间不足、校验失败、内存崩溃等问题,并提供详细的解决方案。涵盖代理配置、缓存迁移、Swap设置等实战技巧,帮助开发者顺利完成本地大模型部署。

一键部署Qwen3-ForcedAligner:本地语音识别不求人

本文介绍了如何在星图GPU平台上自动化部署Qwen3-ForcedAligner-0.6B镜像,实现本地化高精度语音识别与字级别时间戳对齐。用户无需联网或上传音频,即可快速完成会议录音转写、双语字幕生成等典型任务,兼顾隐私安全与毫秒级对齐精度。

#语音识别
语音识别+大模型?Llama-Factory支持跨模态微调实验

本文介绍如何使用Llama-Factory框架实现语音识别与大语言模型的端到端联合微调,通过LoRA和QLoRA技术降低训练成本,支持跨模态任务。该方法可提升语义理解准确性,减少传统两阶段流程的误差累积,适用于智能助手、会议转录等场景。

Qwen3-ASR-0.6B开源镜像部署教程:免编译一键拉起语音识别服务

本文介绍了如何在星图GPU平台上一键自动化部署Qwen3-ASR-0.6B轻量级高性能语音识别模型WeBUI镜像,快速搭建语音转文字服务。该镜像提供简洁的Web界面,支持上传音频文件并自动识别为文本,适用于会议记录、语音转录等场景,显著提升语音处理效率。

#语音识别
    共 354 条
  • 1
  • 2
  • 3
  • 36
  • 请选择