logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

基于 nano-vLLM 学习大模型推理关键功能

nano-vLLM代码量仅约 1200 行,却实现了生产级推理框架的核心技术原型,具体包括:连续批处理(Continuous Batching)KV 缓存(Prefix KV Cache / Paged KV Cache)高性能编译与执行优化(Torch Compilation、Triton、CUDA Graph)张量并行(Tensor Parallelism)该框架极具入门学习价值,本文将先介绍

#学习
基于 nano-vLLM 学习大模型推理关键功能

nano-vLLM代码量仅约 1200 行,却实现了生产级推理框架的核心技术原型,具体包括:连续批处理(Continuous Batching)KV 缓存(Prefix KV Cache / Paged KV Cache)高性能编译与执行优化(Torch Compilation、Triton、CUDA Graph)张量并行(Tensor Parallelism)该框架极具入门学习价值,本文将先介绍

#学习
到底了