qq_43491590 个人主页

qq_43491590

2023-06-09 22:44:21 加入 DevPress

简介

该用户还未填写简介

未填写擅长的技术栈

暂无可提供的服务

一个简化版的vllm，实现了以下的内容flashattntriton。

自注意力是大模型的核心组件，也是计算最密集的两个部分之一（另一个是注意力后的MLP，这也是参数最多的部分）第五章将依次用Triton实现基础版本和FlashAttn，本节先来实现基础版本。

在上一章中，我们搭建了一个Qwen3模型并且进行推理，但推理速度较慢，而且随着输出变长越来越慢，在GPU上还好，较短的输出还感受不出来，CPU上超过20个token就能明显感受到越来越慢推理速度慢的速度后面后手写算子解决，现在先解决这个越来越慢的问题，按现在的速度完全无法生成长文。

到底了