绘制驱动疾病进展的基因调控网络,可以筛选出针对疾病的核心调控基因,从而为疾病治疗提供更有效的方法。

2023年5月31日,题为Transfer learning enables predictions in network biology的文章发表于《Nature》。

1aff5e50ee4a01315d0397779bd8c42e.png

摘要

构建基因网络需要利用大量的转录组数据来学习基因之间的相互关系,这限制了基因网络在数据有限的情形下的应用,包括罕见病和难以获取的组织的疾病等。近来,迁移学习(transfer learning)为自然语言理解、计算机视觉等领域带来了彻底的变革。迁移学习通过有限的任务特异性数据对已在大规模常规数据集上预训练的深度学习模型进行微调,从而使其能够应用于大量的下游任务。在此,我们开发了一个基于注意力机制的上下文感知的深度学习模型Geneformer。Geneformer利用大约3000万个单个细胞转录组构成的大规模语料库进行了预训练,以在有限数据情形下实现下游网络生物学任务的预测。在预训练过程中,Geneformer 对网络动态学获得了基本的理解,可通过完全自监督的方式在模型的注意力权重中编码网络层次结构。在向一个涉及染色质和网络动态的多样的下游任务进行微调时,在有限的任务特异性数据下证明 Geneformer持续提高了预测准确度。在有限患者数据的疾病建模的应用中,Geneformer鉴定了心肌病的候选治疗靶点。总体而言,Geneformer代表了一个预训练的深度学习模型,可通过微调适应广泛的下游应用,进一步促进对关键网络调节因子和候选治疗靶点的发现。

5dbb64f14304205f2d15ef71fc124295.png

图1 Geneformer架构与迁移学习策略 a 描述了迁移学习的流程图;b展示了3000万转录组数据的组织分布;c展示了预训练的Geneformer架构。

讨论

研究人员开发了一种基于深度学习的、对上下文敏感的模型—Geneformer,该模型通过大规模转录组数据的预训练,可以在数据有限的场景中进行预测。在预训练过程中通过观察大量的细胞状态,Geneformer对网络动力学有了基本的理解,并以完全自监督的方式在模型的注意力权重中编码网络层次结构。Geneformer通过对上下文敏感的计算模拟删除方法预测剂量敏感疾病基因的能力,为遗传变异的解释提供了宝贵的资产,包括对驱动复杂性状的GWAS靶点进行优先排序,并预测它们可能影响的特定组织。在胎儿心肌细胞中验证剂量敏感基因候选者TEAD4的实验结果支持了Geneformer在推动人类发育生物学深入研究方面具有重要的作用。

63f8fd1e9c9000f3e47855ba1c0bb7dd.png

图2 使用有限的数据,Geneformer提高了基因剂量敏感性的预测能力。

在使用有限的患者样本进行心肌病疾病模型建模时,Geneformer预测了候选治疗靶点,并在iPSC疾病模型中进行实验性验证,结果发现CRISPR介导的iPSC衍生的心脏微组织中候选TEAD4的敲除导致其产生收缩应力(单位面积的力)的能力显著降低(如图2 e所示)。

因此,使用有限数据进行计算模拟治疗分析可能有助于发现以往受到数据限制而受阻的罕见疾病或影响临床难以获取组织的疾病的治疗方法。此外,我们发现,使用更大、更多样化的语料库进行预训练可以持续提高Geneformer的预测能力。此外,在预训练过程中接触数百个实验数据集似乎也有助于提高易受批次效应和个体差异影响的单细胞分析的稳定性。这些发现表明,随着公开可用的转录组数据量不断扩大,未来基于更大规模语料库的预训练模型可能会为实现更多难以探索的研究提供有意义的预测。

阅读原文内容:

https://www.nature.com/articles/s41586-023-06139-9

往期精品(点击图片直达文字对应教程)

b7091f64a81e158b557f5031064b9ca6.jpeg

9a3588ecb7d799ef2f0b2bfb8039ac9c.jpeg

c02a553254d975cd9a34a03919a0b8f5.jpeg

74228e2194468240f7f1d599b8c68981.jpeg

9750afe65bb3dc8d64304753ef8284b6.jpeg

d3f97e9caad4add4282840074ac98e91.jpeg

1f6ac50188fded054a06fdcc41237d3a.jpeg

6867ff490ac56927b8e0a9776f996839.jpeg

98fa42eb0c668f7a009c9ce9c11c9fbd.jpeg

deaf80064d24443cad45a75a589f39b4.jpeg

cf92497b8102997712fba20f91a3a241.jpeg

1adac8300f4d3fe959271d4819e9d457.jpeg

1e426451081a59d7d210e5752aace3ed.png

2ddffebc9fb7ec70a465a7c3a9190fab.png

b24ba6e4c2cc1c2fcae5ae0bf67951d8.png

1ece0e6a810e237bd3c7da99fcf89092.png

3c12e9690d75af2b682dff9f083eea82.jpeg

d3f8d42810fc8769851c9238c5c13322.jpeg

03f5daa031fe58a89135e7ae9eb697ae.jpeg

3f1b07ba3ab3c4f1f175ec5f7f0fc9b7.jpeg

4876f3dbe72a668d60fa72e72853de0b.png

bd019a1518ce65cb779fc0adc5eceb5c.png

b7233a89282e8740a70a9d6c62689685.jpeg

1262ddf5bf3d146e0425798d93bc5b6d.png

95a092f3db2c8ea60fc7a2c5261dec37.png

83a5d42417f2d3bad251d2a18c6d7a65.jpeg

597e46ed8fd4681968cd1f6849d5cf12.png

a82dd2b8f2e3e805d07ecbf1313d5eab.png

机器学习

06221bdfa244ca45b36f1b793557dff1.png

838a838df45363ae850c69739b87c86d.jpeg

9251ada703398cec140c19492bd4886c.jpeg

2638a8f6120703a869dd45189e8b71be.png

更多推荐