一、llama模型的结构是怎么样的?

采用了transfomer中的decoder,其中7b版本的结构如下:
在这里插入图片描述
13B结构如下:
在这里插入图片描述
GPU显存使用情况:
在这里插入图片描述

二、llama模型中的词典为什么会有大量的token有ord(‘▁’)=9601 的字符呢?

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

Logo

加入「COC·上海城市开发者社区」,成就更好的自己!

更多推荐