logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

深入解析:使用 Triton 实现 Flash Attention2 - 让大模型训练飞起来

这个优雅的算法不仅解决了传统注意力机制的内存瓶颈,更为大模型的训练和推理开辟了新的可能性。传统的注意力机制就像是一个极度健忘的读者:每次想要理解当前句子时,都需要把整本书的每一页都重新翻阅一遍,并且还要在桌子上摆满便签纸来记录每页的重要程度。欢迎在评论区分享你的经验和想法!Flash Attention2 的解决思路就像是一个聪明的图书管理员:与其把所有书页都摊在桌子上,不如一次只处理几页,并且巧

#后端
深入解析:使用 Triton 实现 Flash Attention2 - 让大模型训练飞起来

这个优雅的算法不仅解决了传统注意力机制的内存瓶颈,更为大模型的训练和推理开辟了新的可能性。传统的注意力机制就像是一个极度健忘的读者:每次想要理解当前句子时,都需要把整本书的每一页都重新翻阅一遍,并且还要在桌子上摆满便签纸来记录每页的重要程度。欢迎在评论区分享你的经验和想法!Flash Attention2 的解决思路就像是一个聪明的图书管理员:与其把所有书页都摊在桌子上,不如一次只处理几页,并且巧

#后端
从零实现 REINFORCE/GRPO —— 大模型推理强化微调实践

本文分享我从零实现的。模块,从零实现 REINFORCE、带基线的 REINFORCE 与 GRPO,把准确率稳定拉升到 63.4%,并把训练策略模型、参考模型与采样模型拆到不同 GPU 上高效协同。目标:设计严格且高召回的奖励函数,配合从零实现的策略梯度与 GRPO,逐步把 Qwen2.5-Math-1.5B 在 GSM8K 的 zero-shot 准确率提升到 63.4%。这里的“分组减均值”

#程序人生
从零实现 REINFORCE/GRPO —— 大模型推理强化微调实践

本文分享我从零实现的。模块,从零实现 REINFORCE、带基线的 REINFORCE 与 GRPO,把准确率稳定拉升到 63.4%,并把训练策略模型、参考模型与采样模型拆到不同 GPU 上高效协同。目标:设计严格且高召回的奖励函数,配合从零实现的策略梯度与 GRPO,逐步把 Qwen2.5-Math-1.5B 在 GSM8K 的 zero-shot 准确率提升到 63.4%。这里的“分组减均值”

#程序人生
tensorflow MNIST机器学习入门

tensorflow MNIST机器学习入门MNIST数据集MNIST数据集的官网是Yann LeCun’s website。在这里,我们提供了一份python源代码用于自动下载和安装这个数据集。你可以下载这份代码,然后用下面的代码导入到你的项目里面,也可以直接复制粘贴到你的代码文件里面。import input_datamnist = input_data.read_data_sets("MNI

#机器学习#tensorflow
tensorflow MNIST机器学习入门

tensorflow MNIST机器学习入门MNIST数据集MNIST数据集的官网是Yann LeCun’s website。在这里,我们提供了一份python源代码用于自动下载和安装这个数据集。你可以下载这份代码,然后用下面的代码导入到你的项目里面,也可以直接复制粘贴到你的代码文件里面。import input_datamnist = input_data.read_data_sets("MNI

#机器学习#tensorflow
到底了