logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

vLLM推理加速镜像:支持GPTQ与AWQ量化的新标杆

vLLM通过PagedAttention、连续批处理和GPTQ/AWQ量化技术,显著提升大模型推理效率。支持高并发、低延迟部署,兼容主流量化格式,实现显存优化与吞吐翻倍,适合生产环境落地。

智能家居控制接口:vLLM部署指令解析模型实战

本文介绍了如何在星图GPU平台上自动化部署Vllm-v0.11.0镜像,以构建智能家居指令解析服务。该平台简化了部署流程,用户可快速搭建基于大语言模型的推理环境。部署后的核心应用场景是将用户模糊的自然语言指令(如“调暗客厅灯光”)精准解析为机器可执行的JSON控制命令,从而提升智能家居系统的交互体验。

#智能家居
保姆级教程:vllm部署Baichuan-M2-32B医疗问答系统

本文介绍了如何在星图GPU平台上自动化部署【vllm】Baichuan-M2-32B-GPTQ-Int4镜像,快速构建低延迟、高精度的医疗问答系统。该镜像专为临床场景优化,支持基层医生夜间辅助诊断、医学教学案例生成及指南依从性检测等典型应用,单卡RTX 4090即可开箱即用。

ERNIE-4.5-0.3B-PT新手必看:vLLM部署常见问题与Chainlit调用技巧

本文介绍了如何在星图GPU平台上自动化部署【vllm】ERNIE-4.5-0.3B-PT镜像,并利用Chainlit快速搭建交互界面。该轻量级大语言模型适用于智能对话、文本生成等场景,能有效帮助开发者快速构建AI应用原型,降低部署与使用门槛。

通义千问3-4B-Instruct性能提升秘诀:vLLM加速部署实战指南

本文介绍了如何在星图GPU平台上自动化部署通义千问3-4B-Instruct-2507镜像, leveraging vLLM加速框架实现高性能文本生成。该镜像适用于RAG知识库问答、本地AI助手搭建及长文档摘要等典型场景,显著提升响应速度与并发处理能力。

Qwen2.5-72B开源镜像部署教程:vLLM量化推理+Chainlit交互界面搭建

本文介绍了如何在星图GPU平台上自动化部署Qwen2.5-72B-Instruct-GPTQ-Int4镜像,实现高效的大语言模型推理与交互。该72B参数模型通过GPTQ 4-bit量化技术优化资源占用,支持128K tokens长文本处理和多语言交互,特别适用于智能客服、技术文档分析等场景。结合vLLM推理引擎和Chainlit界面,用户可快速搭建AI对话系统。

5分钟搞定Qwen3-Reranker-4B部署:vLLM+Gradio文本排序零基础教程

本文介绍了如何在星图GPU平台上自动化部署Qwen3-Reranker-4B镜像,快速搭建文本重排序服务。通过vLLM启动模型服务并结合Gradio构建交互界面,用户可轻松实现智能客服、搜索引擎等场景下的文档语义相关性打分与精准排序,提升信息检索效率。

Kimi-VL-A3B-Thinking开源模型生态:适配HuggingFace Transformers与vLLM双引擎

本文介绍了Kimi-VL-A3B-Thinking开源多模态模型,该模型支持HuggingFace Transformers与vLLM双推理引擎。用户可在星图GPU平台上实现该镜像的自动化部署,快速搭建AI应用环境。该模型具备强大的视觉理解与推理能力,典型应用场景包括分析电商商品图片并自动生成详细的产品描述。

用麦橘超然Flux做AI艺术,三步搞定离线绘图服务

本文介绍了如何在星图GPU平台上自动化部署麦橘超然 - Flux 离线图像生成控制台镜像,快速构建本地AI艺术创作环境。依托星图GPU的算力调度与容器化能力,用户可一键启用该镜像,实现中低显存设备上的高效离线图片生成,典型应用于电商主图制作、自媒体配图定制等场景。

幻境·流金GPU算力优化:TensorRT加速i2L推理吞吐量提升2.3倍实测

本文介绍了如何在星图GPU平台上自动化部署⚡ 幻境·流金 (Mirage Flow)镜像,并利用TensorRT技术优化其AI图像生成性能。通过该平台,用户可快速搭建高性能推理环境,将i2L模型的图片生成吞吐量提升2.3倍,显著加速高清数字艺术创作流程。

    共 222 条
  • 1
  • 2
  • 3
  • 23
  • 请选择