简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
在知乎上有这样一个问题:acc很高,但预测正确的样本占比又很低,怎么回事? - 知乎关于这个问题,在这个问题的回答中,有许多大佬从数据的分布、模型的结构、数据集的划分,以及验证指标等层面进行了解答。在这里按照我的理解,简单描述一下这个问题:模型训练正常,模型测试效果很差,甚至在训练集上的测试效果都很差。简单分析一下大概有以下几个方面的原因可以排查:1、检查模型训练和模型测试的数据处理pipelin
对于Auto-Encoding类型的任务,在模型的训练和预测阶段,self-attention都可以并行计算。在hugging face实现的self-attention模块中,为了复用decode生成阶段的key和value,会传入一个past_key_values参数,如果past_key_values不是None,表示前面时间步已经有计算结果了,直接复用上一步的结果,然后将当前时间步的key
如何识别未在训练集中没有出现过的类别
问题分析:神经网络中的long-range依赖问题,对于序列数据(如语音、文字),可以使用RNN循环神经网络来提取长距离依赖,对于图像数据,由于卷积操作具有的局部连接的特性,使得卷积的结果仅和周围的局部区域相关。为了使的卷积操作能够捕捉到更大的依赖关系,目前的做法是增大卷积的感受野,这也就是常见的卷积+下采样(池化)的网络结构。这种网络结构存在以下限制:计算效率不高优化困难跨级的依赖关系比较困难核
AdaBoost算法其实很精炼,算法流程也好理解,但是看了算法的解释版本之后,什么前向分布算法,什么指数损失函数之后有点迷糊了。抛开这些理论性的推导不谈(其实是因为能力有限),通过例子直观的了解AdaBoost算法的计算过程。简要叙述一下AdaBoost算法的主要过程:AdaBoost为每个数据样本分配权重,权重符合概率分布,初始权重符合均匀分布,串行训练M个模型,依据每轮训练的模型的错误率(被误
参考:Tensor transforms and JIT — Torchvision 0.11.0 documentationTorchvision v0.8.0之前版本:Torchvision v0.8.0之前版本的transforms主要分为两类:1、一类处理的输入数据类型为Tensor2、另一类处理的数据类型为PILImage所以torchvision里面提供了两个转换函数ToTensor和
cross_val_score:得到K折验证中每一折的得分,K个得分取平均值就是模型的平均性能cross_val_predict:得到经过K折交叉验证计算得到的每个训练验证的输出预测方法:cross_val_score:分别在K-1折上训练模型,在余下的1折上验证模型,并保存余下1折中的预测得分cross_val_predict:分别在K-1上训练模型,在余下的1折上验证模型,并将...
度量学习的目标:相似的或者属于同一类的样本提取到的embedding向量之间具有更高的相似度,或者具有更小的空间距离对于out-of samples的样本,也就是未见过的样本,希望也能提取到有效的embedding,也就是模型的泛化能力更好Circle Loss论文:《Circle Loss: A Unified Perspective of Pair Similarity Optimizatio
tensorboard常用函数列表如下:torch.utils.tensorboard.writer.SummaryWritertensorboard的入口,创建event filesadd_scalar(tag,scalar_value,global_step=None,walltime=None)添加标量到event fileadd_scalars(main_tag,tag_scalar_di