logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

vllm指定gpu序号

如果想要指定vllm serve 运行的1号gpu,不能仅仅在前面加CUDA_VISIBLE_DEVICES=1;还需要在参数里指定device = cuda,因为不指定的话默认device是auto。

#人工智能#深度学习
DeepSeek LLM(初代)阅读报告

我们介绍了DeepSeek LLMs,一系列开源模型,这些模型是基于2T tokens的庞大数据集从零开始训练的。在本文中,我们提供了关于超参数选择、scaling-law以及我们进行的各种微调尝试的深入解释。

#人工智能#深度学习#机器学习
使用flash-attention推理

虽然transformers库中可以实现flash attention,但是默认情况下是不使用的,需要在加载模型时使用一个参数:attn_implementation="flash_attention_2"。不仅如此,还需要在本地install flash-attn;如果安装失败,可以下载。这个文件,下载到本地之后pip install 它就可以。

#深度学习#机器学习#人工智能
DeepSeek V2报告阅读

在H800集群上进行的实际训练中,对于每万亿标记的训练,DeepSeek 67B需要300.6K GPU小时,而DeepSeek-V2仅需要172.8K GPU小时,即稀疏的DeepSeek-V2与密集的DeepSeek 67B相比,可以节省42.5%的训练成本。研究人员还设计了一种设备限制的路由机制,以限制与MoE(Mixture of Experts)相关的通信成本:由于专家的细粒度分割,激活

文章图片
#transformer#人工智能
DeepSeek LLM(初代)阅读报告

我们介绍了DeepSeek LLMs,一系列开源模型,这些模型是基于2T tokens的庞大数据集从零开始训练的。在本文中,我们提供了关于超参数选择、scaling-law以及我们进行的各种微调尝试的深入解释。

#人工智能#深度学习#机器学习
到底了