
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
基于 nano-vLLM 学习大模型推理关键功能
nano-vLLM代码量仅约 1200 行,却实现了生产级推理框架的核心技术原型,具体包括:连续批处理(Continuous Batching)KV 缓存(Prefix KV Cache / Paged KV Cache)高性能编译与执行优化(Torch Compilation、Triton、CUDA Graph)张量并行(Tensor Parallelism)该框架极具入门学习价值,本文将先介绍
基于 nano-vLLM 学习大模型推理关键功能
nano-vLLM代码量仅约 1200 行,却实现了生产级推理框架的核心技术原型,具体包括:连续批处理(Continuous Batching)KV 缓存(Prefix KV Cache / Paged KV Cache)高性能编译与执行优化(Torch Compilation、Triton、CUDA Graph)张量并行(Tensor Parallelism)该框架极具入门学习价值,本文将先介绍
到底了







