Zhansiqi 个人主页

@Zhansiqi

Zhansiqi

2023-07-31 16:43:01 加入 DevPress

简介

该用户还未填写简介

擅长的技术栈

未填写擅长的技术栈

可提供的服务

暂无可提供的服务

day16网络性能优化

@浙大疏锦行

#python

day45

在 Transformer 中，每个 Token 的特征（Embedding）是相对独立的，LN 能保证每个词的表征都在一个合理的范围内，不受 Batch 大小和句子长度的影响。由于生成任务是按照时间顺序的，模型不能“偷看”未来的词。类似于集成学习（Ensemble），多头并行计算后拼接，能让模型在多个**表征子空间（Subspaces）**中学习信息，比单一维度的注意力更稳健。用 $Q$ 去和所

#python

day42部分题目

他只要顺口问一句：“BERT 只能处理 512 个词，你的新闻那么长，剩下的词你直接扔掉了吗？”如果你答不上来，他就会怀疑你的 0.94 分是不是真的。如果你在写代码时偷了个懒，没有用 pack_padded_sequence 把这些 0 给‘压缩/屏蔽’掉，直接把带有大量 0 的矩阵强行喂给了 BiLSTM，这会对你的模型训练、以及最终算出来的特征向量，造成什么毁灭性的打击？你的数据既然是脱敏的

#python

day36花卉面试题目

我平时看别人的论文，Grad-CAM 热力图都是贴几张好看的红红绿绿的图上去，凭肉眼说‘你看我的模型看对了地方’。在对比实验中我发现，基线模型以及结构复杂的 CBAM 模型，它们的高激活区域往往是大面积弥散的（比例远大于 30%），甚至覆盖了背景杂草，这说明模型在决策时引入了大量无关的噪声特征（即过拟合表现）。（批次矩阵乘法）将这个权重矩阵与原始的 LSTM 输出进行加权求和，把原本 256 长度

#面试 #职场和发展

day32

X_val, X_test, y_val, y_test = train_test_split(X_test, y_test, test_size=0.5, random_state=42)# 50%验证集，50%测试集。continuous_features = data.select_dtypes(include=['int64', 'float64']).columns.tolist()#把

#python

到底了