logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

vLLM-v0.17.1处理长文本实战:突破上下文窗口限制的策略

本文介绍了如何在星图GPU平台上自动化部署vLLM-v0.17.1镜像,实现高效处理长文本任务。该镜像特别适合突破大语言模型的上下文窗口限制,可应用于法律合同分析、学术论文总结等场景,通过文本分割、检索增强生成(RAG)等策略显著提升处理效率。

vLLM如何实现请求级别的QoS分级保障?

vLLM通过PagedAttention、连续批处理和动态调度机制,实现高效的显存管理与请求级别QoS控制。结合外部分级队列和优先级调度,可在高并发下保障关键请求的响应性能,提升系统资源利用率与服务稳定性。

OpenCode安全加固:企业数据保护方案

本文介绍了基于星图GPU平台自动化部署opencode镜像的实践方案。通过该平台可快速搭建OpenCode与vLLM集成环境,实现Qwen3-4B-Instruct-2507等模型的本地化运行,适用于企业级AI编程辅助场景,保障代码隐私与数据安全,同时支持IDE智能补全、项目规划等高效开发功能。

云容笔谈开源大模型部署:支持国产昇腾910B芯片的适配进展说明

本文介绍了云容笔谈开源大模型对国产昇腾910B芯片的适配进展。用户可在星图GPU平台上自动化部署其专属镜像——💃 云容笔谈 · 东方红颜影像生成系统,快速搭建AI绘画环境。该系统核心应用于生成具有东方美学韵味的高清人像图片,助力数字艺术创作与内容生成。

Qwen3双模态架构:平衡推理与响应的创新

Qwen3通过“思考模式”与“非思考模式”的灵活切换,兼顾复杂任务的深度推理与高频交互的快速响应,借助vLLM实现高效部署,在智能与效率之间找到理想平衡点。

Qwen2.5-7B GPU利用率低?算力调优部署教程提升效率

避免使用默认pipeline进行生产部署,其仅为演示用途优先选用vLLM或TGI等专业推理服务器,支持批处理与KV缓存优化务必启用Prefix Caching,尤其适用于多轮对话场景合理设置max-model-len与batch参数,平衡吞吐与显存利用GQA结构优势,减少KV缓存压力,提升并发能力。

Open Interpreter政务AI:政策文件的智能分析工具

本文介绍了基于星图GPU平台自动化部署open interpreter镜像的解决方案,结合vLLM与Qwen3-4B-Instruct-2507模型,实现政策文件的智能分析。该系统可在本地安全环境中完成文档解析、关键信息提取与结构化处理,适用于政务领域的AI辅助决策场景,支持数据不出内网的合规要求。

DeepSeek-V2.5本地部署与性能优化全指南

从零搭建DeepSeek-V2.5本地推理环境,涵盖Docker镜像配置、多GPU部署、量化压缩与FlashAttention加速技巧,结合vLLM提升吞吐,并提供生产级高可用架构与监控方案,助力企业稳定高效运行大模型。

vLLM推理优化核心技术:连续批处理与内存控制

vLLM通过PagedAttention和连续批处理技术,显著提升大模型推理效率。PagedAttention实现细粒度显存管理,减少碎片化;连续批处理动态调度请求,提高吞吐量5–10倍,降低延迟,支持高并发场景下的高效稳定服务。

3D Face HRN GPU算力优化实践:显存占用降低40%、推理提速2.3倍实测

本文介绍了如何在星图GPU平台上自动化部署3D Face HRN人脸重建模型镜像,显著提升3D人脸重建效率。通过显存优化与GPU全流程加速,该镜像可在消费级显卡上3秒内完成手机自拍到Blender可用UV贴图的生成,适用于虚拟人建模、AR滤镜开发等典型场景。

#计算机视觉
    共 187 条
  • 1
  • 2
  • 3
  • 19
  • 请选择