
简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
day45
在 Transformer 中,每个 Token 的特征(Embedding)是相对独立的,LN 能保证每个词的表征都在一个合理的范围内,不受 Batch 大小和句子长度的影响。由于生成任务是按照时间顺序的,模型不能“偷看”未来的词。类似于集成学习(Ensemble),多头并行计算后拼接,能让模型在多个**表征子空间(Subspaces)**中学习信息,比单一维度的注意力更稳健。用 $Q$ 去和所
day42部分题目
他只要顺口问一句:“BERT 只能处理 512 个词,你的新闻那么长,剩下的词你直接扔掉了吗?”如果你答不上来,他就会怀疑你的 0.94 分是不是真的。如果你在写代码时偷了个懒,没有用 pack_padded_sequence 把这些 0 给‘压缩/屏蔽’掉,直接把带有大量 0 的矩阵强行喂给了 BiLSTM,这会对你的模型训练、以及最终算出来的特征向量,造成什么毁灭性的打击?你的数据既然是脱敏的
day36花卉面试题目
我平时看别人的论文,Grad-CAM 热力图都是贴几张好看的红红绿绿的图上去,凭肉眼说‘你看我的模型看对了地方’。在对比实验中我发现,基线模型以及结构复杂的 CBAM 模型,它们的高激活区域往往是大面积弥散的(比例远大于 30%),甚至覆盖了背景杂草,这说明模型在决策时引入了大量无关的噪声特征(即过拟合表现)。(批次矩阵乘法)将这个权重矩阵与原始的 LSTM 输出进行加权求和,把原本 256 长度
到底了







