logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

ktransformers 框架 v0.2.4 post1版本并发性能测试 && 系统资源占用对推理性能影响测试

测试DeepSeek模型性能:单CPU并发提升总吞吐约40%,资源占用由启动参数决定。Q2.71模型显存占用与Q4相近,内存更低。资源测试显示,仅占用显存时性能不变,GPU算力影响decode性能;内存溢出导致prefill/decode大幅下降。CPU占用影响prefill,资源充足时decode正常。优化建议:错峰执行内存/显存任务,避免溢出风险,限制CPU占用以确保KT服务效率。

文章图片
#语言模型#功能测试#AIGC
到底了