logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

GLM-4.7-Flash镜像免配置:预加载59GB模型+vLLM一键启动教程

本文介绍了如何在星图GPU平台上自动化部署GLM-4.7-Flash镜像,开箱即用支持中文大模型对话服务。镜像预载59GB完整权重并深度调优vLLM推理引擎,用户3分钟内即可启动Web界面或调用OpenAI兼容API,典型应用于智能客服应答、多轮中文对话及专业文案生成等场景。

快速上手GLM-4-9B-Chat-1M:vLLM部署与API调用

本文介绍了如何在星图GPU平台上自动化部署【vllm】glm-4-9b-chat-1m镜像,实现高效的大语言模型服务。该镜像支持1M上下文长度,适用于智能客服、长文档总结和多语言对话等场景,通过vLLM框架显著提升推理速度,助力企业快速构建AI应用。

Qwen2.5-72B-Instruct-GPTQ-Int4从零部署:3步完成GPU算力适配与Web前端调用

本文介绍了如何在星图GPU平台上自动化部署Qwen2.5-72B-Instruct-GPTQ-Int4大语言模型镜像,并快速搭建Web交互界面。用户可通过该平台轻松获得强大的AI助手,应用于智能对话、代码生成、长文本总结等复杂任务,显著降低大模型的应用门槛。

Qwen3-Reranker-4B零基础部署指南:5分钟搞定vLLM启动

本文介绍了如何在星图GPU平台上自动化部署Qwen3-Reranker-4B镜像,快速启用多语言文本重排序能力。无需编译或配置,用户可直接通过Web界面输入查询与候选文档,实现RAG系统中的检索结果精准打分与排序,典型应用于知识库问答、跨语言搜索及长文本语义匹配场景。

#RAG
通义千问2.5-7B-Instruct如何提速?vLLM异步推理优化教程

本文介绍了基于星图GPU平台自动化部署通义千问2.5-7B-Instruct镜像的高效方案,结合vLLM实现异步推理加速,显著提升模型吞吐与响应速度。该配置适用于长上下文处理、AI Agent开发等场景,支持Open WebUI可视化交互,便于快速构建本地化大模型应用服务。

Qwen3-0.6B-FP8代码实例:Python调用vLLM API + Chainlit异步流式响应完整示例

本文介绍了如何在星图GPU平台上自动化部署Qwen3-0.6B-FP8镜像,并利用Python调用vLLM API结合Chainlit框架,快速构建一个支持异步流式响应的AI聊天应用。该方案适用于快速搭建轻量级、交互式的智能对话原型或客服助手,显著降低开发门槛。

RMBG-1.4镜像部署教程:AI净界在国产昇腾/寒武纪平台适配可行性分析

本文介绍了如何在星图GPU平台上自动化部署AI净界-RMBG-1.4镜像,实现高效的AI图像背景移除功能。该镜像适用于电商产品图处理、设计素材优化等场景,能够精准识别并去除复杂背景,提升图片处理效率与质量。

Hunyuan-MT-7B开源可部署:支持国产昇腾/寒武纪平台的移植路径

本文介绍了如何在星图GPU平台上自动化部署Hunyuan-MT-7B翻译大模型镜像。该平台简化了部署流程,用户可快速搭建服务,将模型应用于跨境电商商品描述、技术文档等多语言内容翻译场景,有效提升本地化效率。

#机器翻译
Swift-All边缘部署:Ascend NPU低延迟推理案例

本文介绍了如何在星图GPU平台上自动化部署Swift-All镜像,实现大模型在边缘计算场景的低延迟推理。该平台简化了部署流程,用户可快速在Ascend NPU等硬件上搭建环境。Swift-All镜像支持广泛的模型,其典型应用场景包括本地化的智能问答与内容生成,满足对响应速度和数据隐私有高要求的边缘AI需求。

#边缘计算
通义千问3-14B部署教程:vLLM加速推理,吞吐提升3倍实测

本文介绍了如何在星图GPU平台上自动化部署通义千问3-14B镜像, leveraging vLLM加速实现高吞吐低延迟推理。该镜像支持128k长上下文与Thinking/Non-thinking双模式,典型应用于PDF合同摘要、多语言客服应答及技术文档分析等企业级文本生成任务。

    共 220 条
  • 1
  • 2
  • 3
  • 22
  • 请选择