logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

vLLM镜像能否替代HuggingFace Transformers?

本文探讨vLLM在大模型推理场景中是否可替代HuggingFace Transformers。通过PagedAttention和连续批处理技术,vLLM显著提升显存利用率和吞吐量,支持高并发、低延迟的生产部署,并兼容OpenAI接口,降低迁移成本。尽管HuggingFace仍主导训练领域,vLLM已成为推理层面的优选方案。

5分钟部署Meta-Llama-3-8B-Instruct,vLLM+Open-WebUI打造最佳对话体验

本文介绍了如何在星图GPU平台上自动化部署Meta-Llama-3-8B-Instruct镜像,结合vLLM与Open-WebUI构建本地化大语言模型对话系统,典型应用于编程辅助、英文技术问答与代码生成等场景,支持单卡RTX 3060快速启动,兼顾性能与易用性。

MogFace开源模型部署:支持华为MindSpore框架后端推理无缝切换

本文介绍了如何在星图GPU平台上自动化部署MogFace人脸检测模型- WebUI镜像,快速搭建交互式人脸检测服务。该平台简化了部署流程,用户可便捷地通过Web界面或API调用,实现图片或视频中的人脸自动识别与标注,适用于智能相册管理、内容审核等场景。

vLLM镜像中filebeat日志采集器集成步骤

本文介绍如何在vLLM镜像中集成Filebeat,实现高性能LLM推理服务的日志结构化采集。通过配置Filebeat收集JSON格式日志,结合Kubernetes Sidecar模式,确保日志可靠传输至Elasticsearch,提升系统可观测性与运维效率。

Qwen3-14B生产环境部署:vLLM服务健康检查、自动重启与Chainlit稳定性优化

本文介绍了如何在星图GPU平台上自动化部署Qwen3-14b_int4_awq镜像,实现高效的大语言模型推理服务。该镜像采用int4量化技术优化,显著降低资源需求,适用于智能客服、文本生成等场景。通过vLLM框架和Chainlit前端集成,用户可快速搭建稳定的生产环境。

立知-lychee-rerank-mm部署教程:国产昇腾/寒武纪平台适配可行性分析

本文介绍了如何在星图GPU平台上自动化部署立知-多模态重排序模型lychee-rerank-mm,充分发挥其在中文多模态检索场景中的核心能力。该镜像可快速适配国产昇腾/寒武纪芯片,典型应用于搜索结果重排序、客服工单匹配及图文混合相关性评分,显著提升语义理解精度与业务响应效率。

从零部署Qwen2.5-7B-Instruct大模型|vLLM+Chainlit完整指南

本文完整演示了如何从零部署大模型,结合实现高性能、易用性强的本地化 AI 对话系统。组件作用vLLM提供高吞吐、低延迟的推理引擎Docker实现环境隔离与快速部署OpenResty实现负载均衡与统一入口Chainlit快速构建交互式前端,降低开发门槛。

MT5 Streamlit工具国产化适配:麒麟V10+昇腾910B全流程验证

本文介绍了如何在星图GPU平台上自动化部署MT5 Zero-Shot Chinese Text Augmentation镜像,实现中文文本语义改写功能。该工具基于mT5模型,能够快速生成语义相同但表达多样的句子,可有效应用于数据增强、文案润色等场景,提升内容创作效率。

基于ms-swift的新闻摘要生成系统训练与部署全记录

利用ms-swift框架,结合LoRA微调与DPO对齐,构建高效中文新闻摘要系统。通过GPTQ量化将模型压缩至6GB显存可用,集成vLLM实现高并发推理,支持消费级显卡部署。系统已落地于多场景内容生成,兼顾性能、成本与稳定性,展现大模型工程化落地的完整路径。

HunyuanOCR Docker镜像构建过程解析:依赖库与基础环境说明

深入剖析腾讯HunyuanOCR的Docker镜像设计,从基础环境选择、依赖库配置到启动脚本逻辑,揭示其高效部署背后的工程细节。涵盖CUDA版本适配、vLLM推理优化及多模式运行支持,帮助开发者理解如何在生产环境中稳定运行多模态OCR服务。

    共 165 条
  • 1
  • 2
  • 3
  • 17
  • 请选择