logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

重新安装解决mac vscode点击不能跳转问题

本文介绍了彻底卸载并重新安装VSCode的方法:先删除程序及其缓存文件夹(位于/Users/xxx/Library/Application Support/Code),重新安装后项目内文件跳转功能即可恢复。针对Python环境问题,建议先安装Python,通过Ctrl+Shift+P调出命令面板执行"Python: Restart Language Server"并选择Pyth

#macos#vscode#ide
pytorch 模型训练时多卡负载不均衡(GPU的0卡显存过高)解决办法(简单有效)

本文主要解决pytorch在进行模型训练时出现GPU的0卡占用显存比其他卡要多的问题。如下图所示:本机GPU卡为TITAN RTX,显存24220M,batch_size = 9,用了三张卡。第0卡显存占用24207M,这时仅仅是刚开始运行,数据只是少量的移到显卡上,如果数据在多点,0卡的显存肯定撑爆。出现0卡显存更高的原因:网络在反向传播的时候,计算loss的梯度默认都在0卡上计算。因此会比其他

#神经网络#深度学习
查看磁盘,文件夹大小的常用linux命令

一、df命令使用1、查看磁盘使用情况[root@testoracle]# df说明:linux中df命令的输出清单的第1列是代表文件系统对应的设备文件的路径名(一般是硬盘上的分区);第2列给出分区包含的数据块(1024字节)的数目;第3,4列分别表示已用的和可用的数据块数目。用户也许会感到奇怪的是,第3,4列块数之和不等于第2列中的块数。这是因为缺省的每个分区都留了少量空间供系统管理员使...

重新安装解决mac vscode点击不能跳转问题

本文介绍了彻底卸载并重新安装VSCode的方法:先删除程序及其缓存文件夹(位于/Users/xxx/Library/Application Support/Code),重新安装后项目内文件跳转功能即可恢复。针对Python环境问题,建议先安装Python,通过Ctrl+Shift+P调出命令面板执行"Python: Restart Language Server"并选择Pyth

#macos#vscode#ide
pytorch 模型训练时多卡负载不均衡(GPU的0卡显存过高)解决办法(简单有效)

本文主要解决pytorch在进行模型训练时出现GPU的0卡占用显存比其他卡要多的问题。如下图所示:本机GPU卡为TITAN RTX,显存24220M,batch_size = 9,用了三张卡。第0卡显存占用24207M,这时仅仅是刚开始运行,数据只是少量的移到显卡上,如果数据在多点,0卡的显存肯定撑爆。出现0卡显存更高的原因:网络在反向传播的时候,计算loss的梯度默认都在0卡上计算。因此会比其他

#神经网络#深度学习
NLP自然语言处理中oov的词的解释

oov英文全称:out of vocabulary,即超出词表外的词。

#nlp#自然语言处理
论文笔记《Critical Batch Size Revisited: A Simple Empirical Approach to Large-Batch Language......》

本文提出了一种通过"分支训练"直接测量临界Batch Size(CBS)的经验方法,挑战了基于梯度噪声尺度的传统理论。研究发现:(1)CBS随训练过程动态增长并趋于稳定;(2)模型规模不影响CBS;(3)梯度噪声尺度方法在LLM/Adam场景下失效。基于此,作者提出"Batch Size Warmup"策略,动态调整Batch Size,在OLMo模型上实现

#论文阅读#语言模型
论文笔记 -《MUON IS SCALABLE FOR LLM TRAINING》

摘要: 论文提出改进Muon优化器以提升大语言模型训练效率。Muon通过梯度正交化实现多样化参数更新,但面临训练不稳定和更新幅度不均的扩展性问题。研究引入权重衰减和参数更新尺度调整两大关键技术,实验证明改进后的Muon计算效率达AdamW的2倍(同等性能仅需52%计算量)。基于Muon训练的16B参数MoE模型Moonlight在5.7T token数据上表现优异,尤其在代码与数学任务中显著超越同

#论文阅读
语言模型评价指标 bpc(bits-per-character)和困惑度ppl(perplexity)

困惑度ppl(perplexity)ppl是用在自然语言处理领域(NLP)中,衡量语言模型好坏的指标。它主要是根据每个词来估计一句话出现的概率,并用句子长度作normalize,公式为:S – 当前句子;N – 句子长度;p(wi) – 第i个词的概率p(wi|w1w2w3…wi-1) – 这个表示基于前i-1个词,计算得出第i个词的概率,但有的语言模型是可以利用双向的,不知道是不是会...

#nlp
pytorch 模型训练时多卡负载不均衡(GPU的0卡显存过高)解决办法(简单有效)

本文主要解决pytorch在进行模型训练时出现GPU的0卡占用显存比其他卡要多的问题。如下图所示:本机GPU卡为TITAN RTX,显存24220M,batch_size = 9,用了三张卡。第0卡显存占用24207M,这时仅仅是刚开始运行,数据只是少量的移到显卡上,如果数据在多点,0卡的显存肯定撑爆。出现0卡显存更高的原因:网络在反向传播的时候,计算loss的梯度默认都在0卡上计算。因此会比其他

#神经网络#深度学习
    共 25 条
  • 1
  • 2
  • 3
  • 请选择