IO4bKoMu2 个人主页

@IO4bKoMu2

IO4bKoMu2

2026-03-23 21:26:28 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

基于 nano-vLLM 学习大模型推理关键功能

nano-vLLM代码量仅约 1200 行，却实现了生产级推理框架的核心技术原型，具体包括：连续批处理（Continuous Batching）KV 缓存（Prefix KV Cache / Paged KV Cache）高性能编译与执行优化（Torch Compilation、Triton、CUDA Graph）张量并行（Tensor Parallelism）该框架极具入门学习价值，本文将先介绍

#学习

基于 nano-vLLM 学习大模型推理关键功能

#学习

到底了