
简介
该用户还未填写简介
擅长的技术栈
可提供的服务
暂无可提供的服务
接下来定义了一个类Value,这个Value类似torch中的标量版Tensor,而作者通过大量魔术方法,使得这些Value同样可以加减乘除。这里用到了大量的魔术方法,魔术方法就是让你写的类“像个正常人”一样,会加减乘除、能打印、能比较大小,还能像函数一样被调用的小窍门。而不是一坨代码和数据结构塞在一起的冷冰冰的class比如你写了个类,有了 __add__,它就知道怎么“加”;有了 __str_
先看一下结果,目前没有看出差距,hyena代码参考的是作者的colab:https://colab.research.google.com/drive/1wyVEQd4R3HYLTUOXEEQmp_I8aNC_aLhL?可以看出,虽然我的数据集很小,只有两个基因组,但是Transformer似乎比Hyena的loss下降快一些,但是最后两者2000step的下降loss差不多。下面是架构和训练代码
研究团队整合全球两大宏基因组资源(IMG与MGnify),构建了OpenMetaGenomic(OMG)语料库,包含3.1万亿碱基对和33亿蛋白编码序列。针对宏基因组数据分散、质量参差等问题,提出严格质量控制流程,并开发首个混合模态基因组语言模型gLM2,能同时学习蛋白编码区与基因间隔区特征。实验表明该模型在核酸任务和蛋白相互作用预测中表现优异,为基因组基础模型研究提供了新范式。数据集、模型和代码
从最左边的架构图我们可以看到,Hyena是由序列信息经过Hyena Operator和一个MLP形成的,在这个过程中带上Resnet。所以HyenaDNA这个block中最重要的就是Hyena Operator了而对于这个Operator,作者花了大量的笔墨来进行介绍。而最为直接的就是这张Figure3.1了,介绍了对输入x的计算根据作者的描述,和Transformer类似,在序列表示输入之后,先
yixi−μiσi2ϵ∗γβyiσi2ϵxi−μi∗γβ接下来是CausalSelfAttention 类就是大名鼎鼎的注意力机制模块了else:return y观察者我 Q,图片 K,观察重点 V所谓1000个人有1000个哈姆雷特,每个眼中的图片都不一样,我们对图片的不同区域的关注是不一样的,这也是图上热图所显示的。








