
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
交叉熵损失函数,最小就是,如果分布完全一样那就是0,这个就是针对分类的专门函数线性回归和逻辑回归的梯度更新公式是一模一样的逻辑回归如果用最小二乘的方式求损失函数,梯度更新的时候会导致出现很多0梯度变化不明显,不容易迭代判断得到最优解判别模型的效果是要比生成式的模型效果要好,生成式是假设服从某个分布,跟数据的相关性更弱一些。生成式模型有自己的分布假设需要更少的数据,对数据的噪声不敏感些,把整个函数拆
假如细微的变化,人能识别出来,但是机器得出完全不同的东西了真实的越远越好,非真实的越近越好,同时限制下输入偏差不能太大,模型固定去调整输入,把输入当做参数去训练两中方法计算限制距离限制,第二种方式最好画圆即可,超出了拉进来维度是非常多的,某个维度的变化可能导致突变在意方向,梯度设置很大,一次性得到结果攻击的分类,知道模型参数,白箱攻击黑箱攻击,不知道模型参数和架构,只知道训练数据,训练出来一个新的
基于seq2seq的机器翻译机器翻译是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。这里,我们将根据源语言输入,自动输出目标语言译文。这是一个典型的序列到序列(sequence2sequence, seq2seq)建模的场景,编码器-解码器(Encoder-Decoder)框架是解决seq2seq问题的经典方法,它能够将一个任意长度的源序列转换成另一个任意长度的目标序列
参考:https://blog.csdn.net/weixin_42137700/article/details/107137353
数据增强工具:https://github.com/425776024/nlpcda数据标注工具:https://github.com/doccano/doccano
在 RAGFlow 中注册处理代码文件的解析器(参考。
https://aistudio.baidu.com/aistudio/index
报错configure: error: in `/root/Python-3.7.4': configure: error: C compiler cannot create executablesgcc: error: unrecognized command line option '-V' gcc: fatal error: no input files安装以下依赖解决:yum instal
裁剪权重还是神经元,裁剪不重要的,权重是否重要看大小即可逐步裁剪,逐步重新训练达到最佳大的好训练,所以先训练个大的,才裁剪不规则,GPU矩阵运算不好加速只是把对应的weight的值设置为0,事件上weight还在,模型生成的大小仍然是一样的删除神经元是比较容易加速的先集成在蒸馏引入参数T,学习更多的信息矩阵分解,减少参数图像的卷积运算也是一样的近的是通用特征,不能打乱了...
32bit直接转换成8bit参与运算,一定是线性量化,整数前面会有对应的系数。另外量化需要硬件支持,cpu可能对整数运算有加速,GPU未必,有些本身就适合做浮点数运算。量化后非连续,不能求导,通过一些方式变成连续结构化的裁剪才能提速,本身就是矩阵运算transformer整个头的裁剪裁剪那个不重要的头蒸馏是主流的方案除了常规的学习人工标签这位老师,还可以学习预训练这位老师,信息会更充分,连续的表示







