logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

LSTM(长短时记忆网络)原理、pytorch实现、参数量分析以及应用场景简单总结

RNN循环神经网络在解决一些时序问题上是很成功的,但是RNN由于在梯度反向传播的时候,每一步都会乘以一个参数W,当传递的步数很长了,就会导致梯度爆炸和梯度消失——也就是长距离依赖问题。为了解决这个问题,基于RNN就提出了LSTM模型。它采用门机制来实现信息的存储,从而解决了长距离依赖问题。至于LSTM具体是如何缓解了梯度消失和梯度爆炸的问题参考知乎文章——LSTM如何解决梯度消失问...

ChatGLM的int8量化以及由此对量化的梳理总结

目前随着模型规模越来越大,对于没有很多算力的人来说,使用大模型的门槛越来越高,因此ChatGLM提供的模型支持,fp16、int8和int4的量化,来降低加载模型的显存,让更多的人能使用该大模型。

文章图片
#人工智能
无监督对比学习SIMCSE理解和中文实验操作

一、SIMCSE原理理解论文的背景、核心思想、如何构建正样本对——为何这样就能构造一个很好的样本对(bert模型中dropout的理解)、损失函数的理解,错误负样本对结果的影响,有没有好的方法构建一批两两之间都是负样本的数据集,会不会提高SIMCSE的效果?二、文本相似度实验对比可以把bert原生不微调的对比结果、微调后的;有监督的sentence-bert后然后再采用simce对比一下效果。..

文章图片
#机器学习
基于pytorch多GPU单机多卡训练实践

基于pytorch多GPU模型训练实践

word2vec模型训练保存加载及简单使用

目录word2vec模型训练保存加载及简单使用一 word2vec简介二、模型训练和保存及加载模型训练模型保存和加载模型的增量训练三、模型常用API四、文本相似度计算——文档级别word2vec模型训练保存加载及简单使用一 word2vec简介word2vec是google开源的一款用于词向量计算的工具。可以这样理解wor...

#word2vec
深度学习和机器学习中过拟合的判定、原因和解决方法

目录一、过拟合的表现以及判定1、模型过拟合的表现2、模型过拟合的判定二、过拟合的原因三、过拟合的解决方案1、模型层面2、数据层面3、训练层面4、其他最近在做NLP相关任务的时候,训练神经网络模型的过程中,遇到过模型过拟合的情况,到底怎么解决过拟合,来提高模型的性能,不是特别的清晰。以前学习机器学习的时候,也讲到了模型的过拟合,对里面怎么来解...

声纹识别之说话人验证speaker verification

由于工作需要接触到了语音领域的声纹识别,对语音识别进行了一些预研,因此在这里开一篇博客,聊一聊speaker verification学习历程。

#语音识别#人工智能
NLP任务样本数据不均衡问题解决方案的总结和数据增强回译的实战展示

目录一、数据层面1、欠采样(under-sampling)2、过采样二、算法层面1、权重设置2、新的损失函数——Focal Loss三、评价方式四、数据增强实战——回译(back translate)1、Translator2、TextBlob3、百度翻译API在做NLP分类标注等任务的时候,避免不了会遇到样本不均衡的情况,那么我们就...

word2vec模型训练保存加载及简单使用

目录word2vec模型训练保存加载及简单使用一 word2vec简介二、模型训练和保存及加载模型训练模型保存和加载模型的增量训练三、模型常用API四、文本相似度计算——文档级别word2vec模型训练保存加载及简单使用一 word2vec简介word2vec是google开源的一款用于词向量计算的工具。可以这样理解wor...

#word2vec
深度学习和机器学习中过拟合的判定、原因和解决方法

目录一、过拟合的表现以及判定1、模型过拟合的表现2、模型过拟合的判定二、过拟合的原因三、过拟合的解决方案1、模型层面2、数据层面3、训练层面4、其他最近在做NLP相关任务的时候,训练神经网络模型的过程中,遇到过模型过拟合的情况,到底怎么解决过拟合,来提高模型的性能,不是特别的清晰。以前学习机器学习的时候,也讲到了模型的过拟合,对里面怎么来解...

暂无文章信息