logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

vllm+HY-MT1.5-1.8B:低成本高效益翻译服务搭建

本文介绍了基于星图GPU平台自动化部署HY-MT1.5-1.8B镜像的完整方案,结合vLLM与Chainlit实现高效翻译服务。该轻量级模型支持33种语言互译,适用于低延迟、低成本的AI应用开发场景,如实时文本翻译系统,助力开发者快速构建私有化部署的高性能NLP应用。

Phi-3-mini-128k-instruct部署教程:vLLM与FastAPI组合构建标准化AI服务接口

本文介绍了如何在星图GPU平台上自动化部署Phi-3-mini-128k-instruct镜像,结合vLLM与FastAPI构建标准化AI服务接口。该轻量级大模型支持128K上下文长度,适用于智能客服、编程辅助等高效率推理场景,通过Chainlit前端界面可快速实现交互式应用开发。

Phi-3-mini-128k-instruct部署指南:vLLM动态批处理与吞吐量调优技巧

本文介绍了如何在星图GPU平台上自动化部署Phi-3-mini-128k-instruct镜像,并利用vLLM的动态批处理技术进行吞吐量调优。该轻量级大语言模型支持128K长上下文,适用于智能客服、代码生成与多轮复杂对话等场景,能有效提升服务响应速度与并发处理能力。

#性能优化
实测ERNIE-4.5-0.3B-PT:vLLM部署+Chainlit前端,开箱即用的文本生成体验

本文介绍了如何在星图GPU平台上自动化部署【vllm】ERNIE-4.5-0.3B-PT镜像,实现高效的中文文本生成。该轻量级模型结合vLLM推理框架和Chainlit交互界面,可快速搭建开箱即用的AI写作助手,适用于内容创作、文档摘要等场景,显著提升文本生成效率。

vLLM能否作为大模型训练辅助推理工具?

vLLM虽为推理框架,却通过PagedAttention、连续批处理和量化支持,显著加速RLHF、在线评估等训练相关高频推理任务。其高吞吐、低延迟特性大幅提升训练效率,降低资源消耗,成为大模型训练流水线中的关键辅助工具。

vLLM-v0.17.1效果实测:对比传统加载方式,吞吐量提升惊人

本文介绍了如何在星图GPU平台上自动化部署vLLM-v0.17.1镜像,显著提升大语言模型推理效率。实测显示,该镜像在电商客服机器人等场景中,能将吞吐量提升7倍以上,同时降低响应延迟和显存占用,实现高并发下的稳定输出。

DeepSeek-R1-Distill-Qwen-1.5B加速技巧:vLLM批处理部署实战

本文介绍了如何在星图GPU平台上自动化部署DeepSeek-R1-Distill-Qwen-1.5B镜像,实现高效文本生成与推理任务。该平台简化了部署流程,用户可快速搭建环境并应用于代码生成、数学问题解答及智能问答等场景,显著提升AI应用的开发效率。

vLLM-v0.17.1实战教程:A/B测试框架中vLLM多版本模型灰度发布

本文介绍了如何在星图GPU平台上自动化部署vLLM-v0.17.1镜像,实现大语言模型的高效推理与A/B测试框架中的多版本灰度发布。该方案特别适用于在线服务的模型升级场景,通过智能流量分配和实时监控,确保平稳过渡和性能优化。

RexUniNLU高算力适配:GPU显存优化后单卡支持批量16并发推理

本文介绍了如何在星图GPU平台上自动化部署中文NLP综合分析系统 (RexUniNLU零样本通用自然语言理解) 镜像。该镜像经过GPU显存优化,支持单卡批量16并发推理,可高效应用于智能客服、内容审核等场景下的高并发文本分析与理解任务。

#自然语言处理
云容笔谈GPU算力适配:FP16与BF16在Z-Image Turbo中的画质对比

本文介绍了如何在星图GPU平台上一键自动化部署“💃 云容笔谈 · 东方红颜影像生成系统”镜像,并对比FP16与BF16精度在Z-Image Turbo中的画质表现。该镜像专注于生成具有东方美学的高清人像,可应用于古典美人、现代肖像等图片生成场景,显著提升影像创作的细节质感与色彩层次。

    共 183 条
  • 1
  • 2
  • 3
  • 19
  • 请选择