logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

OpenClaw智能截图:千问3.5-9B自动识别界面元素

本文介绍了如何在星图GPU平台上自动化部署千问3.5-9B镜像,实现智能截图与界面元素识别功能。该解决方案可自动识别屏幕中的按钮、文字等UI元素,显著提升软件测试效率,特别适用于自动化视觉回归测试等场景。

Pika视频生成电商短视频广告创意生成技巧

Pika作为AI视频生成工具,通过提示工程与多模态协同,助力电商广告实现高效、个性化的短视频创作,提升营销转化效果。

#视频生成
FLUX.1-dev入门必看:免环境配置镜像快速部署实操手册

本文介绍了如何在星图GPU平台上自动化部署FLUX.1-dev镜像,实现零门槛的AI图像生成。该镜像预置了完整的模型与可视化界面,用户无需配置环境即可快速启动,轻松应用于生成电影级画质的高质量图片,极大降低了AI艺术创作的门槛。

#ComfyUI
懒人必备!一键部署PDF-Parser-1.0文档理解模型

本文介绍了如何在星图GPU平台上自动化部署PDF-Parser-1.0文档理解模型,实现PDF内容的智能解析。通过图形化界面一键启动,用户可快速完成招标书、合同等复杂PDF的技术参数提取、表格结构化与公式识别,显著提升法务审查、知识库构建等实际工作效率。

FunASR语音识别入门:从安装到首次使用的完整流程

本文介绍了基于“星图GPU”平台自动化部署FunASR 语音识别基于speech_ngram_lm_zh-cn 二次开发构建by科哥镜像的完整流程。该平台支持一键启动与高效运行,适用于中文语音转写、会议记录生成等AI应用开发场景,显著降低技术门槛,提升部署效率。

使用阿里小云KWS模型实现多语言唤醒词识别

本文介绍了如何在星图GPU平台上自动化部署阿里'小云'语音唤醒模型(KWS),实现高效的多语言唤醒词识别。该模型支持中英文及混合语音的精准识别,特别适用于智能家居、车载系统等场景的语音交互需求,显著提升用户体验。

#语音识别
Qwen3-ASR-0.6B开箱即用:音频转文字工具完整使用教程

本文介绍了如何在星图GPU平台上自动化部署🎙️ Qwen3-ASR-0.6B 智能语音识别镜像,实现本地化、隐私安全的音频转文字功能。用户无需配置环境或编写代码,即可快速启动Web界面,适用于会议录音整理、课堂笔记生成、客户语音反馈处理等典型场景,全程离线运行,保障数据零外泄。

#语音识别
AI顺风耳体验:寻音捉影·侠客行音频检索全攻略

本文介绍了如何在星图GPU平台上一键自动化部署🗡️ 寻音捉影·侠客行(Shadow & Sound Hunter)镜像,快速搭建本地化音频关键词检索工具。该工具基于FunASR语音识别技术,能高效处理会议录音、视频素材等音频文件,精准定位并提取用户设定的关键词及其出现时间点,大幅提升内容检索与创作效率。

#语音识别
HQQ低比特压缩:边缘设备部署的新希望

HQQ技术结合ms-swift框架,使百亿参数大模型在边缘设备上实现高效部署。通过2~4bit极低比特量化,模型体积压缩超70%,仍保持高精度,并支持微调与对齐训练。一键式流程降低门槛,助力手机、车载、工业等场景实现本地化AI推理。

Qwen3-ASR-1.7B语音识别效果实测:复杂环境也能精准识别

本文介绍了如何在星图GPU平台自动化部署Qwen3-ASR-1.7B语音识别镜像,实现高精度音频转文本功能。该镜像在复杂环境下表现优异,可精准识别带背景噪音、方言的语音,适用于企业会议转录、媒体字幕生成等场景,大幅提升语音处理效率。

#语音识别
    共 406 条
  • 1
  • 2
  • 3
  • 41
  • 请选择