logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

vLLM镜像是否支持模型版本管理功能?

vLLM虽无内置图形化版本控制,但通过OpenAI兼容API、多模型加载与动态调度等机制,天然支持基于命名和路由的模型版本管理。结合PagedAttention与连续批处理,可实现高并发、多版本并行部署,为生产环境下的灰度发布、快速回滚提供坚实基础。

VMware虚拟化:搭建Baichuan-M2-32B-GPTQ-Int4的测试环境

本文介绍了如何在星图GPU平台上自动化部署【vllm】Baichuan-M2-32B-GPTQ-Int4镜像,高效运行专为医疗场景优化的大语言模型。该镜像支持高精度医学问答推理,典型应用于发热咳嗽等常见症状的智能分诊与初步病因分析,显著提升基层医疗AI辅助诊断效率。

Open-AutoGLM调用vLLM模型,响应更快更流畅

本文介绍了如何在星图GPU平台上自动化部署Open-AutoGLM – 智谱开源的手机端AI Agent框架镜像,结合vLLM加速实现高效手机UI自动化操作。典型应用场景包括语音指令驱动的APP操作(如‘打开高德地图搜索最近的麦当劳’),显著提升响应速度与多步任务执行稳定性。

DeepSeek-R1-Distill-Qwen-1.5B部署教程:解决模型输出绕过思维问题

本文介绍了基于星图GPU平台自动化部署DeepSeek-R1-Distill-Qwen-1.5B镜像的完整方案。该平台支持高效推理与一键启动,结合vLLM实现高性能服务。通过添加换行前缀和优化提示工程,可有效解决模型输出绕过思维问题,适用于数学推理、AI应用开发等场景,提升复杂任务的稳定性与准确性。

vLLM镜像支持GPU算力共享与配额管理

本文介绍vLLM镜像如何通过PagedAttention和连续批处理技术提升GPU利用率,支持多租户环境下的算力配额管理,结合Kubernetes实现企业级大模型推理的高效、稳定与可控,显著降低资源成本并提升吞吐性能。

Qwen2.5-7B-Instruct部署指南:8K tokens长文本生成实战

本文介绍了基于星图GPU平台自动化部署Qwen2.5-7B-Instruct镜像的完整流程,结合vLLM推理框架与Chainlit前端工具,实现高效长文本生成。该方案适用于模型微调、AI应用开发等场景,支持8K tokens以上连续输出,显著提升大模型在文档摘要、代码生成等任务中的实战能力。

看完就想试!Qwen3-0.6B构建文本分类服务的真实体验

本文介绍了基于星图GPU平台自动化部署Qwen3-0.6B镜像的完整实践,聚焦于构建高效文本分类服务。该轻量级模型通过SFT微调,在AG News数据集上实现高达0.941的F1分数,结合vLLM推理加速,适用于中文内容分类、新闻标签识别等场景,展现小模型在实际AI应用中的高性价比与灵活性。

扫地机器人清扫路线规

本文探讨如何利用vLLM高性能推理引擎实现扫地机器人自然语言理解与自主路径规划。通过PagedAttention技术提升显存效率,结合大模型本地部署,使机器人能理解复杂指令并生成结构化清扫动作,推动智能家居从被动执行向主动决策演进。

DeerFlow部署教程:在国产昇腾/海光服务器上适配DeerFlow的可行性路径

本文介绍了如何在星图GPU平台上自动化部署DeerFlow镜像,赋能国产昇腾/海光服务器实现AI深度研究助理功能。用户可快速启动具备任务拆解、多源检索、代码执行与报告生成能力的研究系统,典型应用于行业分析报告自动生成、政策与数据交叉验证等场景。

模型响应不连贯?DeepSeek-R1温度参数调优实战解决方案

本文介绍了基于星图GPU平台自动化部署DeepSeek-R1-Distill-Qwen-1.5B镜像的完整方案,重点解决模型响应不连贯问题。通过调优温度参数(推荐temperature=0.6),结合vLLM高效推理框架,可在边缘设备上实现低延迟、高连贯性的AI应用,适用于数学推理、专业问答等场景,显著提升生成质量与部署效率。

    共 193 条
  • 1
  • 2
  • 3
  • 20
  • 请选择