
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
ktransformers 框架 v0.2.4 post1版本并发性能测试 && 系统资源占用对推理性能影响测试
测试DeepSeek模型性能:单CPU并发提升总吞吐约40%,资源占用由启动参数决定。Q2.71模型显存占用与Q4相近,内存更低。资源测试显示,仅占用显存时性能不变,GPU算力影响decode性能;内存溢出导致prefill/decode大幅下降。CPU占用影响prefill,资源充足时decode正常。优化建议:错峰执行内存/显存任务,避免溢出风险,限制CPU占用以确保KT服务效率。

到底了









