logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

nano-vllm解读

一个简化版的vllm,实现了以下的内容flashattntriton。

#自然语言处理#深度学习
从零开始写Qwen3(五-其一)使用Triton实现自注意力

自注意力是大模型的核心组件,也是计算最密集的两个部分之一(另一个是注意力后的MLP,这也是参数最多的部分)第五章将依次用Triton实现基础版本和FlashAttn,本节先来实现基础版本。

#矩阵#pytorch
从零开始写Qwen3(三)-KVCache

在上一章中,我们搭建了一个Qwen3模型并且进行推理,但推理速度较慢,而且随着输出变长越来越慢,在GPU上还好,较短的输出还感受不出来,CPU上超过20个token就能明显感受到越来越慢推理速度慢的速度后面后手写算子解决,现在先解决这个越来越慢的问题,按现在的速度完全无法生成长文。

#pytorch#语言模型
到底了