zhoucy 个人主页

@weixin_46763548

zhoucy

2023-03-29 16:14:03 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

都是生成式推荐，为什么昇腾这么快？

自Meta提出生成式推荐（GR）以来，生成式推荐成为推荐系统领域最热门的话题。GR模型核心结构HSTU亟待从耗时、显存两方面同步优化。MindSDK基于昇腾NPU融合算子，通过内置Mask、优化Tensor数据结构、NPU硬件级指令并行等手段实现显存优化$o(n^2) \rightarrow o(n)$、推理时延优化95%。相关代码仓：[https://gitcode.com/Ascend/Rec

文章图片

都是生成式推荐，为什么昇腾这么快？

自Meta提出生成式推荐（GR）以来，生成式推荐成为推荐系统领域最热门的话题。GR模型核心结构HSTU亟待从耗时、显存两方面同步优化。MindSDK基于昇腾NPU融合算子，通过内置Mask、优化Tensor数据结构、NPU硬件级指令并行等手段实现显存优化$o(n^2) \rightarrow o(n)$、推理时延优化95%。相关代码仓：[https://gitcode.com/Ascend/Rec

文章图片

都是生成式推荐，为什么昇腾这么快？

自Meta提出生成式推荐（GR）以来，生成式推荐成为推荐系统领域最热门的话题。GR模型核心结构HSTU亟待从耗时、显存两方面同步优化。MindSDK基于昇腾NPU融合算子，通过内置Mask、优化Tensor数据结构、NPU硬件级指令并行等手段实现显存优化$o(n^2) \rightarrow o(n)$、推理时延优化95%。相关代码仓：[https://gitcode.com/Ascend/Rec

文章图片

到底了