
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
语言模型理论基础给定文本序列x1,...,xTx_1,...,x_Tx1,...,xT,语言模型的目标是估计联合概率p(x1,...,xT)p(x_1,...,x_T)p(x1,...,xT)它的应用包括做预训练模型(BERT,GPT)生成文本,给定前面几个词,不断使用前面给的词预测下面的词,和前面预测sin函数一样给定多个序列,判断哪个序列更常见使用计数来建模p(x,x′)=p(x)p
序列模型%matplotlib inlineimport torchfrom torch import nnfrom d2l import torch as d2lT = 1000# 总共产生1000个点time = torch.arange(1, T + 1, dtype=torch.float32)x = torch.sin(0.01 * time) + torch.normal(0, 0.2
自注意力机制和位置编码理论自注意力的自不是自己和自己做Attention,之前理解的有问题,是query,key,value都是自己。yi=f(xi,(x1,x1),...,(xn,xn))∈Rdy_i=f(x_i,(x_1,x_1),...,(x_n,x_n))\in\mathbb{R}^dyi=f(xi,(x1,x1),...,(xn,xn))∈RdCNN,RNN,Attentio
原文:NGA的一篇随机科普,其中包含了对手游抽卡机制的探讨。本文摘选了我自己感兴趣的部分。真随机先说点题外话,请先看这个问题一杯热水和一杯冷牛奶哪个热量更高?很显然这个问题从物理学和营养学的层面会得出相反的答案,( 先不考虑物理学层面说“一杯热水的热量”实际上是错误的 ),而关于“随机”的问题上的大部分疑惑与争论都恰如这个问题一般:扔硬币算不算真随机?计算机是否只能生成伪随机?伪随机是不是就一定能







