
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
基于 vLLM Sleep 技术的多模共算实战教程
在算力资源有限,且模型支持链式调用或不严格并发要求时,基于模型睡眠进行快速切换收益还是可观的。但是因为启动服务时增加了,vllm暴露的接口非常多,建议正式服务化前再惊醒一次封装。vLLM Sleep 模式文档HCCL文档。

PD混布场景MindIE LLM服务化推理调度策略解析
基于MindIELLM2.2.RC1源码分析,解析推理混部场景Prefill和Decode调度的决策逻辑。
到底了







