logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

SGLang部署常见错误:端口冲突解决方案实战教程

本文介绍了基于星图GPU平台自动化部署SGLang-v0.5.6镜像的实践方法,重点解决部署中常见的端口冲突问题。通过脚本化检测与释放占用端口,或动态分配空闲端口,可高效启动服务,适用于大模型推理、AI应用开发等场景,提升部署稳定性与开发效率。

DeepSeek-R1-Distill-Llama-8B部署教程:Ollama模型与vLLM后端协同加速方案

本文介绍了如何在星图GPU平台上自动化部署DeepSeek-R1-Distill-Llama-8B镜像,实现高效文本生成与推理任务。该模型支持技术文档补全、数学题分步解析及中文技术报告润色等典型场景,兼顾8B轻量级部署友好性与强逻辑推理能力,显著提升AI工程落地效率。

#DeepSeek
Qwen3-32B性能优化技巧:如何让推理速度更快、效果更好

本文介绍了在星图GPU平台上自动化部署Qwen3-32B镜像的性能优化技巧,提升大语言模型的推理速度和效果。通过精度调整、Flash Attention加速和vLLM推理引擎等优化手段,该镜像可高效处理长文本生成、智能问答等自然语言处理任务,显著提升AI应用的响应速度和质量。

#性能优化
Qwen2.5-72B-GPTQ-Int4部署指南:CUDA 12.1 + vLLM 0.6+ 兼容性验证

本文介绍了如何在星图GPU平台上自动化部署Qwen2.5-72B-Instruct-GPTQ-Int4镜像,并快速搭建AI对话应用。通过该平台,用户可以便捷地启动这一720亿参数的大语言模型服务,并利用Chainlit构建直观的Web聊天界面,轻松应用于智能问答、代码生成等场景。

Baichuan-M2-32B-GPTQ-Int4医疗协议文档生成效果展示

本文介绍了如何在星图GPU平台上自动化部署【vllm】Baichuan-M2-32B-GPTQ-Int4镜像,高效生成合规、专业的医疗协议文档,如患者知情同意书、临床试验主协议及远程医疗用户协议,显著提升医疗机构与法务团队的文书起草效率与监管适配能力。

Hunyuan-MT-7B高算力适配:vLLM支持KV Cache压缩降低显存占用40%

本文介绍了如何在星图GPU平台上自动化部署Hunyuan-MT-7B镜像,依托vLLM的KV Cache压缩技术实现单卡A10高效运行,显著降低显存占用40%。该镜像专用于高质量多语言机器翻译,尤其适用于跨语言内容出海、小语种本地化及文档批量翻译等典型场景。

#机器翻译
零代码基础也能行!图形界面完成大模型训练全流程操作

无需代码基础,通过ms-swift图形界面即可完成大模型下载、微调到部署的全流程。支持LoRA、QLoRA、多模态训练与分布式加速,消费级显卡也能跑动7B级模型,结合vLLM高效推理,让非专业开发者轻松上手大模型定制。

五大生态工具助力Wan2.2-T2V-A14B高效应用

Wan2.2-T2V-A14B作为领先的文本到视频模型,结合vLLM、Ollama、Llama.cpp、ComfyUI和Diffusers五大工具,实现从微调、部署到高效推理与用户交互的完整工作流,显著提升开发效率与应用场景覆盖。

vLLM加速Qwen3-8B实现结构化JSON输出

结合vLLM推理框架与Qwen3-8B模型,通过guided_引导生成稳定结构化JSON,提升推理效率与应用集成能力,适用于智能客服、数据分析等场景。

ARM架构适配进展:CRNN模型在鲲鹏服务器运行测试

本次 CRNN OCR 模型在鲲鹏 ARM 服务器上的成功部署,标志着轻量级深度学习模型已具备良好的国产硬件适配能力。虽然在绝对性能上仍略逊于高端 x86 平台,但其稳定性、安全性与自主可控性使其在特定行业场景中具有不可替代的价值。未来我们将进一步探索:- 使用华为 Atlas 300I 推理卡结合 AscendCL 加速推理,目标 QPS 提升至 15+- 将 CRNN 替换为Transform

    共 216 条
  • 1
  • 2
  • 3
  • 22
  • 请选择