logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

vLLM推理延迟优化技巧:从配置到硬件调优

本文深入解析vLLM如何通过PagedAttention、连续批处理和软硬协同设计显著降低大模型推理延迟。涵盖显存优化、高并发调度、生产部署策略及量化技巧,帮助开发者提升吞吐5–10倍,实现高效GPU利用。

Qwen3-14b_int4_awq部署教程:Docker容器内vLLM服务自启与Chainlit绑定

本文介绍了如何在星图GPU平台上自动化部署Qwen3-14b_int4_awq镜像,实现高效的大语言模型推理服务。通过Docker容器集成vLLM和Chainlit,用户可快速搭建智能对话系统,应用于客服问答、内容生成等场景,显著提升AI服务部署效率。

vLLM推理加速镜像支持多种量化模型无缝切换

vLLM通过PagedAttention和连续批处理技术显著提升大模型推理效率,显存利用率超80%,吞吐提升5-10倍。其推理加速镜像支持GPTQ、AWQ等多种量化格式自动识别与无缝切换,无需修改API,实现高性能、低成本、灵活部署的生产级大模型服务。

Phi-4-mini-reasoning vLLM推理可复现性:seed控制+确定性kernel启用指南

本文介绍了如何在星图GPU平台上自动化部署Phi-4-mini-reasoning镜像,实现可复现的AI推理功能。通过配置随机种子和启用确定性kernel,该镜像特别适用于数学问题求解和逻辑推理等需要精确结果的场景,确保每次推理都能获得一致输出。

vLLM-v0.17.1参数详解:max_num_seqs/max_model_len/quantization配置手册

本文介绍了如何在星图GPU平台上自动化部署vLLM-v0.17.1镜像,实现高效大型语言模型推理服务。该镜像支持max_num_seqs、max_model_len等关键参数配置及多种量化方案,适用于智能客服、文本生成等高并发场景,显著提升语言模型的服务效率与资源利用率。

ERNIE-4.5-0.3B-PT企业落地场景:基于vLLM的轻量级智能问答助手搭建

本文介绍了如何在星图GPU平台自动化部署【vllm】ERNIE-4.5-0.3B-PT镜像,快速搭建轻量级智能问答助手。该方案适用于企业客服自动化场景,能够高效处理用户咨询,提升服务响应速度与用户体验,实现低成本、高效率的AI应用落地。

Hunyuan-MT-7B参数详解:vLLM推理优化与Chainlit前端集成配置

本文介绍了如何在星图GPU平台上自动化部署Hunyuan-MT-7B镜像,实现高质量多语言机器翻译。基于vLLM推理优化与Chainlit前端集成,用户可快速构建响应迅速、支持流式输出的翻译应用,典型应用于技术文档本地化、跨语言客服对话等场景。

#机器翻译
vllm部署glm-4-9b-chat-1m踩坑记录:常见问题与解决方法汇总

本文介绍了如何在星图GPU平台上自动化部署【vllm】glm-4-9b-chat-1m镜像,实现高效的长文本对话处理。该镜像支持1M上下文长度,适用于智能客服、长文档摘要等场景,通过优化配置可显著提升大语言模型的处理能力与响应效率。

MedGemma 1.5环境配置:CUDA 12.1 + Triton + vLLM量化部署降低显存占用57%

本文介绍了如何在星图GPU平台上一键自动化部署MedGemma 1.5医疗助手镜像,实现本地化医疗问答服务。该方案通过vLLM量化技术显著降低显存占用,使模型能在消费级GPU上高效运行,为用户提供专业、安全的医学咨询和病理分析能力。

vLLM助力Qwen、ChatGLM等主流模型实现极致推理性能

vLLM通过PagedAttention和连续批处理技术,显著提升大模型推理效率,支持Qwen、ChatGLM等主流模型,降低显存消耗70%,吞吐提升5-10倍,兼容OpenAI接口,实现高并发、低成本部署。

    共 210 条
  • 1
  • 2
  • 3
  • 21
  • 请选择