logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

vLLM-v0.17.1实战案例:跨境电商多语言商品描述生成服务部署

本文介绍了如何在星图GPU平台上自动化部署vLLM-v0.17.1镜像,实现跨境电商多语言商品描述生成服务。该方案利用高性能LLM推理框架,可快速生成20+种语言的商品描述,显著提升内容创作效率并降低人工翻译成本,特别适用于高并发的电商场景。

#跨境电商
GLM-4v-9b开源镜像实操手册:transformers/vLLM/llama.cpp三端调用

本文介绍了如何在星图GPU平台上自动化部署GLM-4v-9b开源镜像,并详细解析了transformers、vLLM和llama.cpp三种调用方式。该多模态模型能够理解图像和文本内容,典型应用于智能图片分析、图表识别和视觉问答等场景,为开发者提供强大的AI视觉理解能力。

vLLM-v0.17.1一文详解:vLLM与MLC-LLM推理框架技术路线对比

本文介绍了如何在星图GPU平台上自动化部署vLLM-v0.17.1镜像,实现高效的大语言模型推理服务。该镜像采用PagedAttention技术优化内存管理,支持高吞吐量文本生成任务,适用于智能客服、内容创作等场景,显著提升AI应用的响应速度和处理能力。

vLLM镜像用户反馈TOP10问题官方回应

本文解析vLLM通过PagedAttention和连续批处理技术,显著提升大模型推理吞吐与显存利用率。PagedAttention解决KV Cache碎片问题,连续批处理提高GPU时间利用率,配合OpenAI兼容API实现低迁移成本。结合实战案例与架构建议,帮助开发者高效部署大模型服务。

DASD-4B-Thinking入门指南:5步完成vllm部署与chainlit调用

本文介绍了如何在星图GPU平台上自动化部署【vllm】 DASD-4B-Thinking镜像,快速构建具备长链式思维能力的推理服务。该镜像专为数学推导、代码生成与科学论证等需多步逻辑推理的场景优化,用户可通过Chainlit界面直观体验‘思考可见’的交互式AI应用。

DASD-4B-Thinking部署教程:vLLM + Chainlit 镜像免配置快速启动

本文介绍了如何在星图GPU平台上自动化部署【vllm】 DASD-4B-Thinking镜像,开箱即用运行具备长链推理能力的40亿参数模型。用户无需配置环境或安装依赖,即可通过Chainlit前端进行多步逻辑推演对话,典型应用于数学解题、代码逻辑分析与结构化论证等需要分步思考的文本生成场景。

小白必看:GLM-4-9B-Chat-1M的vLLM部署避坑指南

本文介绍了如何在星图GPU平台自动化部署【vllm】glm-4-9b-chat-1m镜像,实现高效的大语言模型推理。该镜像支持1M上下文长度,适用于长文档总结、多轮对话等场景,通过vLLM优化引擎显著提升文本生成效率,特别适合处理超长文本内容。

DASD-4B-Thinking在企业AI助手中的应用:vLLM高吞吐部署+Chainlit交互前端

本文介绍了如何在星图GPU平台上自动化部署【vllm】 DASD-4B-Thinking镜像,以构建具备深度推理能力的企业AI助手。该平台简化了部署流程,用户可快速搭建一个擅长进行长链式思维推理的AI服务,典型应用场景包括为技术团队提供复杂的代码逻辑分析与系统设计草案。

GLM-4-9B-Chat-1M 5分钟快速部署指南:vLLM+Chainlit实战教程

本文介绍了如何在星图GPU平台上自动化部署【vllm】glm-4-9b-chat-1m镜像,快速启用支持百万字上下文的中文大语言模型。用户无需配置环境,5分钟内即可通过Chainlit网页界面开展长文本问答,典型应用于合同与技术文档交叉分析、代码安全审查等专业场景。

Qwen1.5-1.8B-Chat-GPTQ-Int4入门指南:vLLM请求队列机制与响应延迟优化

本文介绍了如何在星图GPU平台上自动化部署通义千问1.5-1.8B-Chat-GPTQ-Int4镜像,并优化其vLLM服务的请求队列与响应延迟。通过调整关键参数,用户可显著提升该轻量化大模型在智能对话、内容生成等应用场景下的并发处理能力和响应速度。

#性能优化
    共 162 条
  • 1
  • 2
  • 3
  • 17
  • 请选择