e名牙医个人主页

@weixin_36282234

e名牙医

2023-09-07 16:21:18 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

为Hermes Agent配置自定义Taotoken提供商接入大模型

基础教程类，面向使用Hermes Agent框架的开发者，目标是将其后端模型服务切换至Taotoken，文章将逐步说明如何在Hermes的配置中，按文档要求设置provider为custom并指定base_url，以及正确写入API密钥到环境变量文件。

C++实现语音识别算法教程

梅尔频率倒谱系数（MFCC）是一种在语音处理领域广泛使用的技术，用于提取语音信号特征。它是通过模拟人类听觉系统对声音频率的感知而设计的，能够有效地表示语音的频谱特性。MFCC的计算过程主要涉及预加重、分帧、加窗、傅里叶变换、梅尔滤波器组、对数能量计算和离散余弦变换（DCT）。在概率论和统计学中，马尔可夫链是一种特殊的随机过程，其特点在于系统的下一个状态仅依赖于当前状态，而与之前的状态无关（无记忆性

小白也能玩转声音克隆：Qwen3-TTS在ComfyUI中的实战应用

本文介绍了如何在星图GPU平台上自动化部署【声音克隆】Qwen3-TTS-12Hz-1.7B-Base镜像，快速搭建AI语音克隆环境。用户通过该平台可轻松实现声音克隆，例如为短视频、有声读物或个性化语音助手生成逼真的定制化语音，极大降低了AI语音合成的应用门槛。

#ComfyUI

小白友好：Qwen3-ASR-1.7B语音识别模型一键部署与使用教程

本文介绍了如何在星图GPU平台上自动化部署Qwen3-ASR-1.7B大模型驱动的语音识别镜像。该平台简化了部署流程，用户可快速搭建本地语音识别服务，并将其应用于会议录音转文字、视频自动生成字幕等场景，实现高效、隐私安全的音频内容处理。

#语音识别

本地部署翻译模型：ollama-translategemma详细教程

本文介绍了如何在星图GPU平台上自动化部署【ollama】translategemma-12b-it镜像，实现本地化、高精度的多语言翻译服务。该模型支持图文混合输入，典型应用于技术文档、UI界面截图及设备面板标签的离线翻译，兼顾术语准确性和中文表达规范，保障数据安全与响应稳定性。

#机器翻译

多模态大模型怎么选？一锤定音提供300+模型对比与评测数据

面对繁杂的多模态大模型与不统一的评测标准，开发者常陷入选择困境。一锤定音基于ms-swift框架，提供300+模型的一站式评测与微调能力，支持LoRA、QLoRA与分布式训练，显著降低硬件门槛。内置中文评测体系EvalScope，实现公平可比的性能验证，让模型选型从经验驱动走向数据驱动。

深入探索微软语音识别SDK：Microsoft Speech SDK详解

在当今技术日新月异的时代，微软语音识别SDK为开发者们提供了一个强大的工具集，使得将语音识别能力融入应用程序变得简单高效。本章将介绍微软语音识别SDK的基础知识，包括它的主要功能和优势，以及在开发过程中的基础使用方法。微软语音识别SDK（Software Development Kit）是微软提供的一套开发工具，旨在帮助开发者构建语音识别和语音合成的功能。该SDK支持多种编程语言，使得开发者能够灵

mT5分类增强版中文-base真实案例：跨境电商平台违禁词规避式改写

本文介绍了如何在星图GPU平台自动化部署全任务零样本学习-mT5分类增强版-中文-base镜像，实现跨境电商商品描述的智能合规改写。该模型能自动识别并替换违禁词汇，如将“最有效”改写为“备受好评”，在保持原意的前提下确保文案符合平台规则，有效降低商品下架风险。

#跨境电商

Qwen3-32B在物流路径规划中的推理能力

Qwen3-32B凭借128K上下文和链式推理能力，实现复杂物流路径的高效规划。它能综合时间窗、车辆限制与实时路况，输出可解释的决策路径，并支持端到端系统集成，提升调度效率与可信度。

升级SGLang后，我的模型推理快了3倍

本文介绍了基于星图GPU平台自动化部署SGLang-v0.5.6镜像的实践，通过该镜像可显著提升大模型推理效率。结合RadixAttention与结构化输出特性，适用于高并发AI应用开发场景，实现吞吐量提升近3倍，助力高效构建工业级LLM服务。

共 336 条

请选择