logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

vLLM-v0.17.1开发者案例:AI编程助手集成GitHub Copilot替代方案

本文介绍了如何在星图GPU平台上自动化部署vLLM-v0.17.1镜像,构建高性能AI编程助手替代方案。该方案利用vLLM框架的PagedAttention技术和OpenAI兼容API,可实现毫秒级代码补全响应,特别适合集成到开发环境作为GitHub Copilot的本地化替代方案。

Qwen3-14b_int4_awq实操笔记:在Jupyter中调用vLLM API并嵌入Chainlit前端

本文介绍了如何在星图GPU平台上自动化部署Qwen3-14b_int4_awq镜像,实现高效文本生成功能。该量化模型通过int4精度和AWQ技术优化,显著降低资源需求,适用于构建智能问答系统、内容创作等场景。文章详细展示了在Jupyter中调用vLLM API并集成Chainlit前端的完整流程。

vLLM-v0.17.1效果展示:vLLM在国产海光DCU平台上的ROCm兼容性验证

本文介绍了如何在星图GPU平台上自动化部署vLLM-v0.17.1镜像,实现高效的大语言模型推理服务。该镜像在海光DCU平台上展现出优异的ROCm兼容性,适用于构建高并发的AI问答系统,支持50+用户同时访问且响应时间低于500ms,显著提升服务效率。

快速上手ERNIE-4.5-0.3B-PT:vLLM部署指南与Chainlit前端调用详解

本文介绍了如何在星图GPU平台上自动化部署【vllm】ERNIE-4.5-0.3B-PT镜像,快速搭建AI对话应用。通过该平台,用户可轻松配置并启动模型服务,结合Chainlit前端框架,快速构建一个能够进行智能问答、内容创作和代码生成的交互式聊天助手,实现高效的原型验证与应用开发。

Phi-4-mini-reasoning vLLM部署避坑指南:日志排查、加载失败诊断与修复步骤

本文介绍了如何在星图GPU平台上自动化部署Phi-4-mini-reasoning镜像,实现高效推理任务。该轻量级开源模型专注于数学推理能力,支持128K令牌上下文长度,适用于智能问答、逻辑推理等场景。文章详细解析了部署流程中的常见问题与解决方案,帮助用户快速搭建推理服务环境。

Phi-4-mini-reasoning性能实测:vLLM在A10/A100上的推理延迟与并发表现

本文介绍了如何在星图GPU平台上自动化部署Phi-4-mini-reasoning镜像,实现高效AI推理任务。该轻量级模型特别擅长数学问题求解和逻辑分析,结合vLLM框架在A10/A100 GPU上展现出优异的延迟和并发性能,适用于代码生成、长文档摘要等需要复杂推理的应用场景。

vLLM部署ERNIE-4.5-0.3B-PT的弹性伸缩实践:K8s HPA基于QPS自动扩缩容

本文介绍了如何在星图GPU平台上自动化部署【vllm】ERNIE-4.5-0.3B-PT镜像,实现大语言模型的弹性推理服务。该方案结合Kubernetes HPA基于QPS自动扩缩容,能够根据流量动态调整资源,适用于智能客服、文本生成等应用场景,显著提升资源利用率并降低成本。

Qwen3-0.6B-FP8部署教程:Chainlit前端自动重连vLLM服务的健壮性配置

本文介绍了如何在星图GPU平台上自动化部署Qwen3-0.6B-FP8镜像,并构建一个具备自动重连机制的健壮对话应用。通过集成vLLM后端与Chainlit前端,该方案能确保服务稳定,适用于需要长时间、不间断对话的智能客服或AI助手等典型场景。

GLM-4-9B-Chat-1M部署教程:国产昇腾/海光平台适配可行性验证

本文介绍了如何在星图GPU平台上自动化部署glm-4-9b-chat-1m镜像,高效支撑百万token级长文本处理任务。该镜像专为财报分析、合同审查、技术白皮书解读等企业级文档理解场景优化,支持单卡国产昇腾/海光硬件,开箱即用多轮对话与结构化信息抽取功能。

Qwen3-VL-8B国产化适配:昇腾/海光平台vLLM移植可行性分析

本文分析了Qwen3-VL-8B模型在昇腾/海光等国产化平台的vLLM移植可行性。借助星图GPU平台,用户可以自动化部署Qwen3-VL-8B AI 聊天系统Web镜像,快速搭建一个具备视觉理解能力的AI对话系统,典型应用场景包括上传图片并基于图片内容进行智能问答与对话。

    共 230 条
  • 1
  • 2
  • 3
  • 23
  • 请选择