机器学习在生物信息(如DNA比对等方面)的研究现状是怎样的?

计算机研一小白一枚,实验室整体做的方向是机器学习,老板分给我的方向是机器学习在生物信息领域的应用。这方面我搜了些论文,但基本都是比较偏生物的,看不懂啊喂。所以来知乎跪求学生物信息学的大佬们分享下当前的研究情况以及需要机器学习解决什么问题。

答几个比较简单的应用,以我和朋友今年的毕业设计为例:

  1. Nanopore的三代测序题主都很熟悉,简单说就是依靠电流的不同来判断是哪个碱基。然而同种碱基之间,是否被修饰乃至产生表观遗传学意义上的不同,也会导致电流的微小区别。可以引入机器学习算法进行多分类识别来判断修饰的状态(组蛋白修饰,甲基化等等)。乃至于可以扩展到,对表观遗传修饰的预测,这个就比较难了。
  2. 我自己的毕业设计和利用图卷积网络,transformer模型进行药物与靶点反应预测以及图生成分子有关,这个不过多解释了,非常热门的领域

多说一句,现在生信发展的速度已经非常快了,序列对比这种技术已经相当成熟,很难算是生信研究最热门的领域。另外AI在生信领域的应用已经极为广阔了,年轻一些搞生信的几乎人手会调点参。题主这个问题要是想认真答,估计翻译翻译都能写篇综述了。

无非学习两个方面的知识:

  1. 机器学习本身的方法学,这个反正跑不了,从公式到代码都整明白
  2. 应用场景,这里是生物信息,其实更清楚点,应该是生命科学领域的数据分析。

最常说的就是基因组数据,一般是测序仪产生的,大致可以分为现在主流的短读长和发展迅速的长读长。

做比对(alignment)不太用机器学习。但用深度学习检测突变逐渐成为主流方法,起始点可以参考Google的DeepVariant,主要是短读长的。长度长的数据也有自己的特点,所以有专门的算法,比如港大罗锐邦做的Clair和王凯的NanoCaller。

还有群体基因组学领域的PRS,用于基于基因组数据预测生物性状,这其实是个典型的机器学习预测问题了。大量使用从逻辑回归到深度学习的各种方法。

蛋白质组学数据,典型的就是DeepMind的AlphaFold预测蛋白质结构。

睡了一半醒来,随便列几个。机器学习是解决很多有大量数据积累的生命科学问题的主流方法了,也是生物信息学工具箱中的强力工具。

工作方面,还是赶不上互联网,但硕士干了点实事的话,到IVD公司或者AI药物研发企业找个工作还是不难的。



作者:陈钢
链接:https://www.zhihu.com/question/271866129/answer/2166159186
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

更多推荐