MoleculeNet: a benchmark for molecular machine learning - Chemical Science (RSC Publishing)

摘要:MoleculeNet包含多个公共数据集,建立了评估度量,并提供多个先前提出的分子特征和学习算法的高质量开源实现(DeepChem库中)。此外,MoleculeNet benchmarks表明,可学习表示是分子机器学习的强大工具,并广泛提供最好的性能。然而,这个结果是需要注意的。在数据稀缺和高度不平衡的分类条件下,可学习的表示仍然难以处理复杂的任务。对于量子力学和生物物理数据集,使用物理感知的特征化(physics-aware featurizations)可能比选择特定的学习算法更重要。

        机器学习对分子性质研究的意义重大,但目前提出的大多算法均在不同的数据集上进行测试,因此很难比较这些算法的性能。并且分子数据库通常比较小,化学研究的宽度又很广,因此,分子机器学习需要能预测这些宽范围的性质是一个很有挑战性的任务。输入的分子形态大小不一,连通性和构象之间的差距很大,因此还需将分子转化成适合机器学习的形式,这边需要从分子中提取有用的相关信息进行特征化。总结:分子机器学习的困难:数据量的限制,预测范围广,输入分子结构的异质性和学习算法的选择。因此,这项工作旨在通过管理一些数据集集合,创建一套这样的软件:实现许多已知的分子特征,并提供高质量的算法实现,从而促进分子机器学习方法的发展。就像WordNet 和 ImageNet一样。

       MoleculeNet 包含超过70万种化合物的性质数据,所有的数据都被收录进开源的DeepChemGitHub - deepchem/deepchem: Democratizing Deep-Learning for Drug Discovery, Quantum Chemistry, Materials Science and BiologyDemocratizing Deep-Learning for Drug Discovery, Quantum Chemistry, Materials Science and Biology - GitHub - deepchem/deepchem: Democratizing Deep-Learning for Drug Discovery, Quantum Chemistry, Materials Science and Biologyhttps://github.com/deepchem/deepchemDeepChem的用户可以通过提供的库调用轻松地加载所有这些数据。MoleculeNet中也包含了一些常见的(生物)化学特征化方法,以及一些机器学习算法的实现,这些实现依赖于Scikit-Learn和Tensorflow。此外,值得注意的是,在模型评估时,机器学习中常见的Random splitting方法并不适用于化学数据。MoleculeNet为DeepChem提供了一个数据分割机制库,并通过多种数据分割方法来评估所有算法。

现有的一些数据集:PubChem、PubChem BioAssasy、ChEMBL、PubChem、ChemSpider、Crystallography Open Database、Cambridge Structural Database、protein data bank。

但上述数据库都不是针对机器学习的,这些数据集没有定义衡量算法有效性的指标,也没有将数据分割为训练/验证/测试集。然而,不同组之间的评价指标和子集的选择差异很大,导致使用统一数据库的两篇文章可能无法进行比较。

       MoleculeNet包含大量公共数据库(17个)用于测试不同性质,这些 性质主要分为四大类:量子力学,物理化学,生物物理学和生理学。

       具体的数据库内容推荐的数据分割方法及评价指标如下表:

 以及这些数据库的性能总结:

不同的数据分割方法

        Random splitting:随机分割

        Scaffffold splitting: 根据样本的二维结构框架对样本进行分割(在RDKit中实现)

        Stratified random sampling:该方法按增加标签值的顺序对数据点进行排序

        Time splitting:包含时间信息

特征化方法

        Smiles:有局限(大多数分子机器学习方法需要进一步的信息,从有限的数据中学习分子的复杂电子或拓扑特征),但是有潜力(一些研究已经证明)。

        MoleculeNet提供了6种表示方法:ECFP、Coulomb matrix、Grid featurizer、Symmetry function、Graph convolutions和Weave。

模型

传统模型:

        Logistic regression、Support vector classification、Kernel ridge regression、Random forests、Gradient boosting、Multitask/singletask network、Bypass multitask networks、Influence relevance voting

图模型:

        Graph convolutional models、Weave models、Directed acyclic graph models、Deep tensor neural networks、ANI-1、Message passing neural networks

 结果

        基于图的模型(图卷积模型、编织模型和DTNN)在大多数数据集上的优势优于其他方法,但在数据稀缺的情况下,基于图的方法对复杂任务不够稳健;在严重不平衡的类数据集上,传统的方法如核SVM在阳性召回率方面优于可学习的特征。并且对不同的任务使用特殊性质是很有必要的,使用距离信息的DTNN和MPNN在QM数据集上比简单的图卷积表现得更好。未来,数据驱动的算法可能优于物理算法,代替手工算法。

部分解释包含个人理解,可能与原文表达的含义有出入,欢迎批评指正!

Logo

瓜分20万奖金 获得内推名额 丰厚实物奖励 易参与易上手

更多推荐