简介
该用户还未填写简介
擅长的技术栈
未填写擅长的技术栈
可提供的服务
暂无可提供的服务
transformer的输入到输出(维度以及矩阵计算)
维度变化:q*k.T=(3,5)*(5,3)=(3,3)(/^dk和softmax矩阵维度不变)维度变化:q*k.T=(3,5)*(5,3)=(3,3)(/^dk和softmax矩阵维度不变)z=(3,5*4)=(3,20)注意力机制到这里就结束了(z为提取的向量特征)之后乘v=(3,3)*(3,5)=(3,5)(由于为4头注意力机制所以5乘4)之后乘v=(3,3)*(3,5)=(3,5)(由于为
到底了