logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

Ostrakon-VL-8B vLLM高级特性:支持LoRA适配器热切换不同零售子场景

本文介绍了如何在星图GPU平台上自动化部署Ostrakon-VL-8B镜像,并利用其LoRA适配器热切换高级特性。该功能允许单一模型在不重启的情况下,实时切换不同技能模块,例如在零售场景中,可快速从“生鲜质检”切换到“货架管理”,实现灵活精准的智能巡检与分析。

#LoRA
GLM-4-9B-Chat-1M vLLM部署详解:--gpu-memory-utilization参数调优指南

本文介绍了如何在星图GPU平台上一键自动化部署【vllm】glm-4-9b-chat-1m镜像,并详细解析了GPU内存利用率参数的调优方法。该镜像支持超长文本对话处理,适用于智能客服、长文档摘要等场景,通过优化配置可显著提升大语言模型的推理效率和稳定性。

手把手教你用vLLM部署GLM-4-9B-Chat:1M上下文长度体验

本文介绍了如何在星图GPU平台上自动化部署【vllm】glm-4-9b-chat-1m镜像,高效支撑百万级上下文的长文档理解任务。用户可快速启用该镜像,应用于法律合同条款比对、技术文档跨页推理、原著级文本因果分析等典型场景,显著提升专业领域AI问答的准确性与深度。

通义千问2.5-7B-Instruct能源行业:设备监测系统教程

本文介绍了基于星图GPU平台自动化部署通义千问2.5-7B-Instruct镜像的完整实践,结合vLLM与Open WebUI构建能源行业设备监测智能助手。该系统可对传感器数据进行实时分析,实现故障预警与诊断建议生成,并支持输出Python脚本用于趋势可视化,适用于电力、风电等场景的AI运维开发。

Qwen3-Embedding-4B性能优化:GPU利用率提升

本文介绍了基于星图GPU平台自动化部署Qwen3-Embedding-4B镜像的实践方法,通过SGLang框架实现高效向量服务构建。该方案显著提升GPU利用率至近90%,适用于语义搜索、RAG系统及多语言文本嵌入等AI应用开发场景,助力高性能模型快速落地。

Unity3D医疗教学系统开发:集成Baichuan-M2-32B智能问答

本文介绍了如何在星图GPU平台上自动化部署【vllm】Baichuan-M2-32B-GPTQ-Int4镜像,赋能Unity3D医疗教学系统实现智能问答功能。该镜像专为医疗场景优化,支持基于3D人体模型的实时临床问题推理与解释,典型应用于医学生解剖互动、病理分析及问诊训练等沉浸式教学场景。

Qwen2.5-7B-Instruct推理优化实践|vLLM提升吞吐14倍

如果你仍在使用处理批量请求,那么你的 GPU 很可能长期处于“空转”状态。静态批处理机制:所有输入必须 padding 到相同长度,造成大量显存浪费;无法动态合并请求:一批请求未完成前,新请求只能排队等待;KV Cache 管理粗放:缓存以完整序列分配,碎片化严重,显存利用率不足50%。通过本次实践,我们验证了性能飞跃:相比原生 Transformers,吞吐提升达14 倍以上功能完备:支持长上下

看完就想试!用通义千问3向量模型做的跨语言知识库案例

本文介绍了基于星图GPU平台自动化部署通义千问3-Embedding-4B-向量化模型镜像的实践案例,该平台支持高效构建跨语言知识库。通过vLLM与Open WebUI集成环境,用户可快速实现中英文混合查询、长文档语义检索等AI应用开发,适用于多语言文档管理、技术问答系统等场景,显著提升知识检索效率与智能化水平。

通义千问3-Embedding-4B性能测试:MTEB三榜领先解析

本文介绍了基于星图GPU平台自动化部署通义千问3-Embedding-4B-向量化模型镜像的实践方法。该平台支持一键拉取镜像并快速构建高效AI应用,适用于多语言语义搜索、长文本处理与代码理解等场景。结合vLLM与Open-WebUI,可轻松实现企业级知识库的搭建与模型微调,显著提升开发效率。

VideoAgentTrek-ScreenFilter算力优化:YOLOv8s模型在低显存环境部署技巧

本文介绍了在星图GPU平台上自动化部署VideoAgentTrek-ScreenFilter镜像的优化方案。该镜像基于YOLOv8s模型,能够高效检测图片和视频中的屏幕内容,适用于媒体内容审核、自动化信息提取等场景。通过一系列显存优化技巧,使其能在低显存环境下稳定运行。

#目标检测
    共 216 条
  • 1
  • 2
  • 3
  • 22
  • 请选择