logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

sglang Dense LLM PD分离部署

sglang Dense LLM PD分离部署

#sglang
DFlash推测解码和SGLang支持

DFLASH推测解码原理

文章图片
#sglang
sglang compile_deep_gemm

此外,需要设置环境变量SGLANG_DG_CACHE_DIR(早期版本为SGL_DG_CACHE_DIR)指定缓存目录,并且以后launch_server启动模型也要加上这个从而提升模型启动速度。python3 -m sglang.launch_server这个改成python3 -m sglang.compile_deep_gemm。按照启动模型的方式一样来启动compile_deep_gemm

#sglang
SGLang HiCache KV Cache offload

SGLang HiRadix Cache KV Cache offload

#sglang
SGLang PD分离流程细节

SGLang PD分离流程细节

文章图片
#sglang
DeepSeek v4 Compressor kv cache压缩模块

DeepSeek v4 Compressor kv cache压缩模块

#DeepSeek
深度学习模型量化基础

深度学习模型量化基础

文章图片
#深度学习
guidellm LLM大模型性能评测工具

guidellm LLM大模型性能评测工具

深度学习性能优化之图优化

这里总结了深度学习模型常见的部分图优化,有一些现有的深度学习框架已经有了,有些是作者的独特发现,现有深度学习框架还没有。

文章图片
#深度学习
    共 37 条
  • 1
  • 2
  • 3
  • 4
  • 请选择