logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

GPT-OSS-20B常见问题全解,vLLM镜像让部署少走弯路

本文介绍了如何在星图GPU平台上自动化部署gpt-oss-20b-WEBUI镜像,高效运行GPT-OSS-20B大语言模型。通过vLLM优化配置,用户可快速构建稳定、低延迟的文本生成服务,典型应用于技术文档撰写、Prompt工程调试与批量AI问答等场景。

DeepSeek-R1-Distill-Qwen-1.5B环境部署:vLLM+Open-WebUI快速上手

本文介绍了如何在星图GPU平台自动化部署DeepSeek-R1-Distill-Qwen-1.5B镜像,结合vLLM推理引擎和Open-WebUI界面,实现高效智能对话。该镜像适用于代码生成、数学问题解答等学习辅助场景,在普通设备上即可流畅运行,为用户提供便捷的AI助手体验。

GLM-4v-9b镜像免配置:预装vLLM+Open WebUI+Jupyter一体化镜像

本文介绍了如何在星图GPU平台上一键自动化部署GLM-4v-9b多模态AI镜像,该镜像预集成vLLM推理引擎、Open WebUI和Jupyter环境,开箱即用。用户可快速实现图像内容分析与视觉问答,适用于智能图像识别、图表数据提取等实际场景,显著提升多模态AI应用的开发效率。

Qwen3-14b_int4_awq开发者指南:如何用webshell验证vLLM服务状态

本文介绍了如何在星图GPU平台上自动化部署Qwen3-14b_int4_awq镜像,并通过webshell验证vLLM服务状态。该量化模型特别适用于高效文本生成任务,如智能客服对话、内容创作等场景,显著提升推理速度并降低显存占用。

Qwen3-14B RTX 4090D专用镜像详解:FlashAttention-2+vLLM推理加速实操

本文介绍了如何在星图GPU平台上自动化部署Qwen3-14B 私有部署镜像,实现高效AI推理。该镜像专为RTX 4090D优化,集成FlashAttention-2和vLLM技术,显著提升推理速度,适用于技术文档生成、代码辅助等场景,助力开发者快速搭建高性能AI服务。

Phi-3-mini-128k-instruct实战指南:vLLM服务日志分析与推理延迟瓶颈定位

本文介绍了如何在星图GPU平台上自动化部署Phi-3-mini-128k-instruct镜像,实现高效的大语言模型推理服务。该轻量级模型特别适用于智能问答、文本生成等场景,通过vLLM服务日志分析可精准定位推理延迟瓶颈,显著提升响应速度与资源利用率。

Ostrakon-VL-8B GPU算力优化指南:vLLM量化部署降低显存占用50%

本文介绍了如何在星图GPU平台上自动化部署Ostrakon-VL-8B多模态大模型镜像,并通过vLLM量化技术显著降低显存占用。该镜像专为零售与餐饮场景设计,能够基于上传的店铺或商品图片,执行智能分析、合规检查与商品识别等任务,助力业务决策。

Chandra OCR环境配置:Ubuntu 22.04 + vLLM 0.6+ + CUDA 12.1完整部署步骤

本文介绍了如何在星图GPU平台上自动化部署chandra镜像,实现高精度结构化OCR处理。该镜像基于vLLM 0.6+与CUDA 12.1构建,可精准识别扫描文档中的表格、公式、手写签名及复杂版式,典型应用于合同条款提取、试卷数字化和企业知识库批量导入等场景。

Qwen3-ASR-0.6B优化:vLLM推理加速2000倍吞吐实现

本文介绍了如何在星图GPU平台上自动化部署🎙️ Qwen3-ASR-1.7B高精度语音识别工具,实现高效的语音转文本处理。该镜像支持多语言识别和噪声环境下的高准确率转录,典型应用于会议记录、音频内容批量转写等场景,大幅提升语音处理效率。

#语音识别
Qwen3-Reranker-0.6B保姆级教程:从HuggingFace模型下载到vLLM转换全流程

本文介绍了如何在星图GPU平台上自动化部署Qwen3-Reranker-0.6B镜像,并构建一个完整的文本重排序应用。该平台简化了从模型下载到服务部署的流程,用户可快速搭建环境,将模型应用于智能搜索、推荐系统或文档问答等场景,以提升检索结果的相关性和准确性。

    共 195 条
  • 1
  • 2
  • 3
  • 20
  • 请选择