
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
背景--传统前馈网络的短板1.层与层之间连接, 每层之间无连接. 每层输入输出维数是固定的, 不能任意改变. 无法处理变长序列数据2.假设每次输入都是独立的, 也就是说每次网络的输出只依赖于当前的输入RNN的结构各种类型的网络更新状态按时间展开随时间的反向传播算法向前传...
multi-head attention:单个attention输入后,对应有三个权重矩阵multi-head输入后,如果有l个头,就有l×3个参数矩阵multi-head输出的向量会串联起来,变长不只是attention,self—attention也有多头transformer的encoder:transformer的encoder的一层结构:multi—head attention+dens
背景:BP在产生的过程中:会产生梯度消失/梯度爆炸。 为了阻止这种情况发生优点与缺点:优点:简单粗暴缺点:很难找到满意的阈值代码:torch.nn.utils.clip_grad_norm_(model.parameters(), max_norm=20)参考:https://www.cnblogs.com/lindaxin/p/7998196.html...
慢慢理解GNN谱域和空域
摘要: (这篇文章就觉得, 它是通过动态图解决了隐式反馈一些偶然的交互边的问题)将用户的隐式反馈重组为用户-商品交互图有助于图卷积网络(GCNs)在推荐任务中的应用。在交互图中,用户节点与商品节点之间的边作为gcns的主要元素,进行信息传播,生成信息表示。然而,一个潜在的挑战在于交互图的质量,因为观察到的交互与不太感兴趣的项目发生在隐式反馈中(比如,用户偶然浏览了微视频)。这意味着带有这种假阳性边
直述:随着时间,学习率加快代码:# Reduce learning rate when validation accuarcy plateau.scheduler = torch.optim.lr_scheduler.ReduceLROnPlateau(optimizer, mode= max , patience=5, verbose=True)for t in range(0, 80):tra
慢慢理解GNN谱域和空域
见到的一个解释:自监督学习让我们能够没有大规模标注数据也能获得优质的表征,反而我们可以使用大量的未标注数据并且优化预定义的 pretext 任务。然后我们可以使用这些特性来学习缺乏数据的新任务。自监督学习的应用(任务----图像, 任务等):1.https://mp.weixin.qq.com/s?subscene=3&__biz=Mzg5ODAzMTkyMg==&mid=2247
(文章写得非常好,看不懂的是傻瓜......)GCN问世已经有几年了(2016年就诞生了),但是这两年尤为火爆。本人愚钝,一直没能搞懂这个GCN为何物,最开始是看清华写的一篇三四十页的综述,读了几页就没读了;后来直接拜读GCN的开山之作,也是读到中间的数学部分就跪了;再后来在知乎上看大神们的讲解,直接被排山倒海般的公式——什么傅里叶变换、什么拉普拉斯算子等等,给搞蒙了,越读越觉得:“哇这些大佬好厉
wget https://datarepo.eng.ucsd.edu/mcauley_group/data/amazon_2023/raw/meta_categories/meta_All_Beauty.jsonl.gzwget https://datarepo.eng.ucsd.edu/mcauley_group/data/amazon_2023/raw/meta_categories/meta
