
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
LLM Serving 为什么越做越像操作系统:Continuous Batching、KV Cache 与请求调度系统拆解
摘要:很多人理解 LLM 推理优化时,第一反应是量化、算子融合、TensorRT-LLM 或 vLLM,但真正把线上吞吐、延迟和成本拉开差距的,往往不是某一个单点优化,而是一整套“请求如何进入 GPU、如何排队、如何共享显存、如何被分批执行”的调度系统。本文从工程视角系统拆解 LLM Serving 中最核心的一层:Continuous Batching、Prefill/Decode 分阶段执行、
LLM Serving 为什么越做越像操作系统:Continuous Batching、KV Cache 与请求调度系统拆解
摘要:很多人理解 LLM 推理优化时,第一反应是量化、算子融合、TensorRT-LLM 或 vLLM,但真正把线上吞吐、延迟和成本拉开差距的,往往不是某一个单点优化,而是一整套“请求如何进入 GPU、如何排队、如何共享显存、如何被分批执行”的调度系统。本文从工程视角系统拆解 LLM Serving 中最核心的一层:Continuous Batching、Prefill/Decode 分阶段执行、
从零理解 AI Infra:大模型时代最值得补齐的工程能力
AI Infra,全称 AI Infrastructure,可以理解为支撑 AI 模型从训练到推理再到线上服务的基础设施系统。它不是一个单独的软件,也不是某个框架,而是一整套技术体系。算力硬件:GPU、NPU、TPU、AI ASIC、CPU、内存、网络互联编程与运行时:CUDA、ROCm、驱动、编译器、运行时库高性能算子:GEMM、Attention、Softmax、LayerNorm、Embed
到底了







