
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
nano-vllm解读
一个简化版的vllm,实现了以下的内容flashattntriton。
从零开始写Qwen3(五-其一)使用Triton实现自注意力
自注意力是大模型的核心组件,也是计算最密集的两个部分之一(另一个是注意力后的MLP,这也是参数最多的部分)第五章将依次用Triton实现基础版本和FlashAttn,本节先来实现基础版本。
从零开始写Qwen3(三)-KVCache
在上一章中,我们搭建了一个Qwen3模型并且进行推理,但推理速度较慢,而且随着输出变长越来越慢,在GPU上还好,较短的输出还感受不出来,CPU上超过20个token就能明显感受到越来越慢推理速度慢的速度后面后手写算子解决,现在先解决这个越来越慢的问题,按现在的速度完全无法生成长文。
到底了








