logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

大模型学习8下-高性能推理引擎vLLM学习笔记

与此同时,随着模型参数规模和上下文长度不断增长,传统推理方案的瓶颈也越来越明显:显存利用率低、GPU算力利用率低、并发能力不足,并且请求量一旦增加,响应延迟就会迅速恶化。传统推理往往要等一个批次中的所有请求都结束后才能进入下一轮计算,而vLLM允许新请求持续加入正在执行的批次,各请求独立推进、独立结束,不必同步等待。PagedAttention:借鉴操作系统的分页内存管理思想,将KVCache切分

#学习
Codex Context Compaction 真相:Agent 为什么压缩后还能接着干活?

如果你长时间用过代码 Agent,大概率遇到过这种场景:前面半小时还在很认真地查仓库、跑测试、解冲突,下一轮突然像换了个人,只记得“正在处理一个项目”,但忘了分支名、PR 编号、刚才失败的是哪个测试。这类崩坏通常不发生在第一轮。它发生在上下文被压缩之后。所以过去很多人的习惯很保守:上下文快满之前,先让 Agent 写一份交接文档;重要任务做到一半,尽量不要自动 compact;能新开会话就新开会话

#jupyter
到底了