logo
publist
写文章

简介

该用户还未填写简介

擅长的技术栈

可提供的服务

暂无可提供的服务

day45

在 Transformer 中,每个 Token 的特征(Embedding)是相对独立的,LN 能保证每个词的表征都在一个合理的范围内,不受 Batch 大小和句子长度的影响。由于生成任务是按照时间顺序的,模型不能“偷看”未来的词。类似于集成学习(Ensemble),多头并行计算后拼接,能让模型在多个**表征子空间(Subspaces)**中学习信息,比单一维度的注意力更稳健。用 $Q$ 去和所

#python
day42部分题目

他只要顺口问一句:“BERT 只能处理 512 个词,你的新闻那么长,剩下的词你直接扔掉了吗?”如果你答不上来,他就会怀疑你的 0.94 分是不是真的。如果你在写代码时偷了个懒,没有用 pack_padded_sequence 把这些 0 给‘压缩/屏蔽’掉,直接把带有大量 0 的矩阵强行喂给了 BiLSTM,这会对你的模型训练、以及最终算出来的特征向量,造成什么毁灭性的打击?你的数据既然是脱敏的

#python
day36花卉面试题目

我平时看别人的论文,Grad-CAM 热力图都是贴几张好看的红红绿绿的图上去,凭肉眼说‘你看我的模型看对了地方’。在对比实验中我发现,基线模型以及结构复杂的 CBAM 模型,它们的高激活区域往往是大面积弥散的(比例远大于 30%),甚至覆盖了背景杂草,这说明模型在决策时引入了大量无关的噪声特征(即过拟合表现)。(批次矩阵乘法)将这个权重矩阵与原始的 LSTM 输出进行加权求和,把原本 256 长度

#面试#职场和发展
day32

X_val, X_test, y_val, y_test = train_test_split(X_test, y_test, test_size=0.5, random_state=42)# 50%验证集,50%测试集。continuous_features = data.select_dtypes(include=['int64', 'float64']).columns.tolist()#把

#python
到底了