许搬运工个人主页

@qq_37854244

许搬运工

2022-11-13 16:47:09 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

LLM Serving 为什么越做越像操作系统：Continuous Batching、KV Cache 与请求调度系统拆解

摘要：很多人理解 LLM 推理优化时，第一反应是量化、算子融合、TensorRT-LLM 或 vLLM，但真正把线上吞吐、延迟和成本拉开差距的，往往不是某一个单点优化，而是一整套“请求如何进入 GPU、如何排队、如何共享显存、如何被分批执行”的调度系统。本文从工程视角系统拆解 LLM Serving 中最核心的一层：Continuous Batching、Prefill/Decode 分阶段执行、

#人工智能

LLM Serving 为什么越做越像操作系统：Continuous Batching、KV Cache 与请求调度系统拆解

#人工智能

从零理解 AI Infra：大模型时代最值得补齐的工程能力

AI Infra，全称 AI Infrastructure，可以理解为支撑 AI 模型从训练到推理再到线上服务的基础设施系统。它不是一个单独的软件，也不是某个框架，而是一整套技术体系。算力硬件：GPU、NPU、TPU、AI ASIC、CPU、内存、网络互联编程与运行时：CUDA、ROCm、驱动、编译器、运行时库高性能算子：GEMM、Attention、Softmax、LayerNorm、Embed

#人工智能

到底了