logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

CANN 上跑 Llama3-70B:我踩了 5 个坑,这些经验值 3000 字

cann-recipes-infer 是 CANN 社区的开源推理配方仓库,里面有一堆主流大模型的推理脚本,包括 Llama、Qwen、ChatGLM 这些。4 卡并行用的是 cann-recipes-infer 里的 `parallel_inference.py` 脚本,底层走的是 HCCL 集合通信。原因:昇腾 NPU 的显存管理和 NVIDIA GPU 不一样,同样参数量的模型,昇腾上占的显

#算法
CANN NLP 模型部署:BERT、GPT 等文本模型在昇腾 NPU 上的完整落地指南

本文介绍了NLP模型的分类与部署实践。首先将NLP模型分为三类:编码器(如BERT)、解码器(如GPT)和编码器-解码器(如T5),并分析了模型部署的五大挑战。随后详细展示了BERT模型的部署流程,包括ONNX导出、ATC转换和推理实现代码。最后介绍了GPT模型的自回归生成方法,包括温度缩放和采样策略。文章提供了完整的代码示例,涵盖了从模型导出到实际推理的全过程,为NLP模型部署提供了实用参考。

文章图片
#自然语言处理#bert
到底了