简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
RNN循环神经网络在解决一些时序问题上是很成功的,但是RNN由于在梯度反向传播的时候,每一步都会乘以一个参数W,当传递的步数很长了,就会导致梯度爆炸和梯度消失——也就是长距离依赖问题。为了解决这个问题,基于RNN就提出了LSTM模型。它采用门机制来实现信息的存储,从而解决了长距离依赖问题。至于LSTM具体是如何缓解了梯度消失和梯度爆炸的问题参考知乎文章——LSTM如何解决梯度消失问...
目前随着模型规模越来越大,对于没有很多算力的人来说,使用大模型的门槛越来越高,因此ChatGLM提供的模型支持,fp16、int8和int4的量化,来降低加载模型的显存,让更多的人能使用该大模型。
一、SIMCSE原理理解论文的背景、核心思想、如何构建正样本对——为何这样就能构造一个很好的样本对(bert模型中dropout的理解)、损失函数的理解,错误负样本对结果的影响,有没有好的方法构建一批两两之间都是负样本的数据集,会不会提高SIMCSE的效果?二、文本相似度实验对比可以把bert原生不微调的对比结果、微调后的;有监督的sentence-bert后然后再采用simce对比一下效果。..
基于pytorch多GPU模型训练实践
目录word2vec模型训练保存加载及简单使用一 word2vec简介二、模型训练和保存及加载模型训练模型保存和加载模型的增量训练三、模型常用API四、文本相似度计算——文档级别word2vec模型训练保存加载及简单使用一 word2vec简介word2vec是google开源的一款用于词向量计算的工具。可以这样理解wor...
目录一、过拟合的表现以及判定1、模型过拟合的表现2、模型过拟合的判定二、过拟合的原因三、过拟合的解决方案1、模型层面2、数据层面3、训练层面4、其他最近在做NLP相关任务的时候,训练神经网络模型的过程中,遇到过模型过拟合的情况,到底怎么解决过拟合,来提高模型的性能,不是特别的清晰。以前学习机器学习的时候,也讲到了模型的过拟合,对里面怎么来解...
由于工作需要接触到了语音领域的声纹识别,对语音识别进行了一些预研,因此在这里开一篇博客,聊一聊speaker verification学习历程。
目录一、数据层面1、欠采样(under-sampling)2、过采样二、算法层面1、权重设置2、新的损失函数——Focal Loss三、评价方式四、数据增强实战——回译(back translate)1、Translator2、TextBlob3、百度翻译API在做NLP分类标注等任务的时候,避免不了会遇到样本不均衡的情况,那么我们就...
目录word2vec模型训练保存加载及简单使用一 word2vec简介二、模型训练和保存及加载模型训练模型保存和加载模型的增量训练三、模型常用API四、文本相似度计算——文档级别word2vec模型训练保存加载及简单使用一 word2vec简介word2vec是google开源的一款用于词向量计算的工具。可以这样理解wor...
目录一、过拟合的表现以及判定1、模型过拟合的表现2、模型过拟合的判定二、过拟合的原因三、过拟合的解决方案1、模型层面2、数据层面3、训练层面4、其他最近在做NLP相关任务的时候,训练神经网络模型的过程中,遇到过模型过拟合的情况,到底怎么解决过拟合,来提高模型的性能,不是特别的清晰。以前学习机器学习的时候,也讲到了模型的过拟合,对里面怎么来解...