
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
《DeepSeek LLM :Scaling Open-Source Language Models with Longtermism》文章阅读解析
在本文中,广泛研究了语言模型的缩放行为,并将发现应用于两种广泛使用的大型模型配置,即7B和67B。我本文研究旨在为将来的开源LLMS缩放奠定基础,为该领域的进一步发展铺平了道路。具体而言,首先检查了批量规模和学习率的缩放定律,并以模型大小找到了它们的趋势。在此基础上,对数据和模型尺度的缩放定律进行了全面研究,成功揭示了最佳模型/数据扩展分配策略,并预测了大规模模型的预期性能。DeepSeek LL

常用激活函数介绍
激活函数输出范围计算复杂度梯度消失额外参数适用场景Sigmoid(0,1)高有无早期神经网络、二分类任务Tanh(-1,1)高有无RNN、零均值数据ReLU[0,∞)低有无CNN、深度网络Leaky ReLU(-∞,∞)低无有深度网络,防止神经元死亡PReLU(-∞,∞)低无有计算机视觉,灵活学习负半轴参数ELU(-∞,∞)中等无有深度网络,稳定收敛Swish(-∞,∞)高无有Google 高效网
《DeepSeek LLM :Scaling Open-Source Language Models with Longtermism》文章阅读解析
在本文中,广泛研究了语言模型的缩放行为,并将发现应用于两种广泛使用的大型模型配置,即7B和67B。我本文研究旨在为将来的开源LLMS缩放奠定基础,为该领域的进一步发展铺平了道路。具体而言,首先检查了批量规模和学习率的缩放定律,并以模型大小找到了它们的趋势。在此基础上,对数据和模型尺度的缩放定律进行了全面研究,成功揭示了最佳模型/数据扩展分配策略,并预测了大规模模型的预期性能。DeepSeek LL

到底了







