涵盖AI药物研发(辅助制药):白皮书、国内外技术报告、干货书、最新综述论文(入门)、关键技术最新论文(含实现代码,进阶)、数据集、教程课程讲解PPT等。
-
摘要:人工智能 (AI) 启发了计算机辅助药物发现。机器学习(尤其是深度学习)在多个科学学科中的广泛采用,以及计算硬件和软件的进步等因素继续推动了这一发展。最初对人工智能在药物发现中应用的怀疑已经开始消失,从而有利于药物化学。本文 回顾了人工智能在化学信息学中的现状
。本文讨论的主题包括定量结构-活性/性质关系和基于结构的建模、从头分子设计和化学合成预测。重点介绍了当前深度学习应用的优势和局限性,以及对用于药物发现的下一代 AI 的展望。
基于深度学习的方法才刚刚开始解决药物发现中的一些基本问题。某些方法学上的进步,例如消息传递模型、保持空间对称性的网络、混合从头设计和其他创新的机器学习范式,可能会变得司空见惯,并有助于解决一些最具挑战性的问题。开放数据共享和模型开发将在利用 AI 推动药物发现方面发挥核心作用。
-
摘要 :计算化学和基于结构的设计传统上被视为有助于加速药物发现过程的工具子集,但通常不被视为小分子药物发现的驱动力。然而,在过去十年中,该领域取得了巨大的进步,包括 (1) 开发基于物理的计算方法,以准确预测从效力到溶解度的各种端点,(2) 人工智能和深度学习方法的改进(3) 随着 GPU
和云计算的出现,计算能力显着提高,从而能够在计算机中探索和准确描述大量的药物类化学空间。在结构生物学方面也取得了同步进展,例如低温电子显微镜 (cryo-EM) 和计算蛋白质结构预测,允许获得更多高分辨率 3D 结构的新型药物受体复合物。这些突破的融合使结构支持的计算方法成为发现新型小分子疗法的驱动力。这篇综述将
广泛概述计算化学、机器学习和结构生物学领域的最新进展,特别是在hit识别、hit-to-lead和lead优化领域的协同作用 。
-
:药物设计和开发是制药公司和化学科学家的重要研究领域。然而,低功效、脱靶递送、时间消耗和高成本构成了影响药物设计和发现的障碍和挑战。此外,来自基因组学、蛋白质组学、微阵列数据和临床试验的复杂和大数据也给药物发现管道带来了障碍。人工智能和机器学习技术在药物发现和开发中发挥着至关重要的作用。换句话说,人工神经网络和深度学习算法已经使该领域现代化。
机器学习和深度学习算法已在多个药物发现过程中实施,例如肽合成、基于结构的虚拟筛选、基于配体的虚拟筛选、毒性预测、药物监测和释放、药效团建模、定量构效关系、药物重新定位、多药理学和理化活性
。过去的证据加强了人工智能和深度学习在该领域的实施。此外,新颖的数据挖掘、管理和管理技术为最近开发的建模算法提供了关键支持。总之,人工智能和深度学习的进步为合理的药物设计和发现过程提供了绝佳的机会,最终将影响人类。
-
摘要 :这篇综述强调了人工智能在制药行业各个领域的有效使用,例如 药物发现和开发、药物再利用、提高制药生产力、临床试验 等,从而减少了人类的工作量并实现了目标在短时间内。还讨论了用于执行 AI 的工具和技术、持续的挑战以及克服这些挑战的方法,以及 AI 在制药行业的未来。
-
的各种方面,如药物-蛋白质相互作用预测、药物疗效的发现、确保安全性生物标志物。本综述提供了在药物开发的各个阶段通过ML工具和技术发现药物的可行文献,以加速研究过程,降低临床试验的风险和支出。机器学习技术改进了在不同应用中的药物数据决策,如QSAR分析、hit发现、从头药物架构检索准确的结果。在本综述中,靶点验证、预后生物标志物、数字病理学都被认为是存在问题的。ML挑战必须适用于可解释性结果不足的主要原因,这可能会限制药物发现中的应用。在临床试验中,必须生成绝对数据和方法学数据,以解决在验证ML技术、改进决策、提高ML方法的意识以及推断药物发现中的风险失败方面的许多难题。
-
。首先概述了药物的发现和相关应用,并将其归纳为分子性质预测和分子生成两个主要任务。介绍了公共数据资源、分子表示和基准平台。人工智能技术被分解为模型架构和学习范式。按照时间顺序调研了近年来人工智能在药物发现方面的技术发展。还提供GitHub知识库包含了一组论文(和代码)作为学习资源,并定期更新([])
-
导致人们急于重新利用现有药物。药物再利用是一种利用现有已知药物或药物组合在意想不到的医疗场景中进行探索的技术。因此,与传统的从头药物发现过程相比,药物再利用通过节省时间和成本,在加速设计新药的临床前过程中发挥着至关重要的作用。由于药物再利用依赖于现有药物和疾病的大量观察数据,因此公开可用的大规模机器学习方法的巨大增长为数据科学在疾病、医学、治疗和识别目标方面提供了最先进的应用以最小的错误。
本文介绍了有关利用机器学习方法加速药物再利用的策略和选项的指南 。讨论了如何在精准医学研究中使用机器学习方法,并以机器学习方法如何通过开发中药疗法来加速 COVID-19 药物再利用。本文为使用机器学习方法进行药物再利用提供了很强的合理性,包括在抗击 COVID-19 大流行期间。
-
。其中13个利用GNN进行分子性质预测,29个利用RL和/或深度生成模型进行分子生成和优化。在大多数情况下,总结的重点是模型,它们的变体,以及针对药物设计中特定任务的修改。此外,将人工智能在分子生成和优化方面的60个额外应用简要总结在一个表格中。最后,本研究对基于人工智能的药物设计的丰富应用进行了全面的讨论,从而明确了基于人工智能的药物设计的任务、潜在解决方案和挑战。
-
摘要 :知识图谱(KG)在许多任务中都有应用前景,包括药物再利用、药物毒性预测和目标基因疾病优先排序。在药物发现的KGs中,包括基因、疾病和药物在内的关键元素被表示为实体,而它们之间的关系表示相互作用。然而,要构造高质量的KGs,需要适当的数据。
这篇综述详细介绍了适合用于构建药物发现KGs的公开可用的数据源。对现有的公共药物发现 KGs进行比较分析,并对文献中选取的案例进行评估。此外,提出了与该领域及其数据集相关的独特挑战和问题,同时也强调了未来的关键研究方向。
-
摘要:鉴于新药的高损耗率、巨大的成本和缓慢的开发速度,重新利用"旧"药物治疗常见和罕见疾病正日益成为一个有吸引力的提议,因为它涉及使用无风险化合物,具有较低的总体开发成本和较短的开发时间。已经提出了各种数据驱动和实验方法来确定可再利用的候选药物;
然而,还有一些重大的技术和监管挑战需要解决。本综述介绍了用于药物再利用(也称为药物再定位)的方法,讨论了药物再利用社区面临的挑战,并提出了解决这些挑战的创新方法,以帮助实现药物再利用的全部潜力。
-
:药物再利用又称为药物重新定位或治疗转换。开展了各种研究,通过利用不同的药物再利用方法来设计新的药物分子,以识别用于治疗COVID-19的药物物质,它们可以作为对病毒蛋白的重要抑制剂。利用药物再利用策略,通过虚拟筛选药物库来确定合适的药物。该方法通过分子相似性和同源性建模等计算工具,有助于确定候选药物与冠状病毒靶蛋白的结合相互作用。为了预测药物受体相互作用和结合亲和力,还进行了分子对接研究和结合自由能计算。参与药物再利用的方法可以分为三组drug-oriented等面向目标的和疾病或therapy-oriented取决于相关的信息质量和数量的理化、生物、药理、毒理学和药物分子的药代动力学性质。
本文重点介绍了瑞德西韦、法匹拉韦、利巴韦林、Baraticinib、托西单抗、氯喹、羟氯喹、普卢利沙星、卡菲佐米、比替格韦、奈非那韦、特哥布韦和糖皮质激素等现有药物的药物再利用策略,以确定其对COVID-19治疗的有效性 。
-
摘要 :冠状病毒病(COVID-19)大流行导致了对现有药物的重新利用,尽管基本的证据基础质量参差不齐。随着人们对COVID-19病毒学和临床表现的认识不断加深,潜在的药理靶点越来越多。 本综述的目的是描述药物再用途的监管和药理方面,并根据注册的临床试验确定拟议用于COVID-19再用途的药物
,讨论支持它们在这种疾病治疗中的使用的证据。还将讨论如何正确解读现有的临床前/临床证据,以及如何生成与COVID-19药物再利用有关的新证据。
-
摘要 :本综述 将重点讨论当前使用的抗COVID-19药物的再用疗效及其作用机制、药代动力学、给药剂量、安全性和未来前景 。 与硅内、体外、体内、人体临床试验、病例报告和新闻档案相关的实验研究文章被选择进行综述。利用病毒发病机制和药物药效学的基本知识,以及计算工具,许多药物目前正在被重新利用。
在当前情况下,重新部署药物可被视为治疗COVID-19的新途径。
-
摘要 :本文首先讨论了多尺度生物分子模拟在识别靶向大分子上的药物结合位点和阐明药物作用机制方面的作用。 然后, 介绍和讨论了虚拟筛选方法(如分子对接、药效团建模和QSAR)以及基于结构和配体的经典/新药设计
。最后,探讨了机器学习方法的发展及其在上述计算方法中的应用,以加快药物发现的过程。讨论了几种方法相结合的应用实例。不同方法的结合,共同解决不同尺度、不同维度的难题,将是药物筛选与设计的必然趋势。
-
,即牙科医学、血液学、外科、心脏病学、肺病学、骨科、放射学、肿瘤学、普通医学、精神病学、内分泌学、神经学、皮肤病学、肝病学、肾病学、眼科和药物发现。本文讨论了这些系统在医疗实践中的进步,以及这些系统对医疗专业人员的影响。
-
正在成为药物发现不可或缺的一部分。它具有跨越药物发现和开发价值链的潜力,从目标识别到临床开发。这篇综述概述了当前的人工智能技术,并通过强调人工智能产生真正影响的例子来了解人工智能如何重新构想临床前药物发现。考虑到围绕人工智能在药物发现中的兴奋和夸张,我们旨在通过讨论在药物发现中采用人工智能的机遇和挑战来呈现一个现实的观点。
-
:药物再利用被推广为一种提供新药的具有成本和时间效益的机制。然而,学术研究人员通常没有充分考虑确保重新利用的药物可用于新适应症所需的过程。致使药物再利用无法兑现其承诺。经常被忽视的重要方面包括财务和知识产权考虑、临床和监管路径以及临床平衡,这为随机对照试验提供了伦理依据。药物再利用的目标是为现有药物获得监管机构批准的新标签,因此,药物再利用和传统药物开发的轨迹相似。在这里,讨论了药物重新利用成功的关键因素,以帮助学术研究人员更好地识别药物重新利用的机会。
-
,使其更加高效和准确。本文对相关研究进行了系统综述。这项工作支持机器学习和人工智能在促进药物开发和发现过程中的作用,使其更具成本效益或完全消除了临床试验的需要,因为能够使用这些技术进行模拟。它们还使研究人员能够更广泛地研究不同的分子,而无需任何试验。本文的结果证明了机器学习和人工智能方法在药物发现中的普遍应用,并预示了这些技术的广阔前景;这些结果应该使研究人员、学生和制药行业能够在药物发现和开发环境中更深入地研究机器学习和人工智能。
-
摘要 :随着计算机计算能力的提高、数据的积累和算法的快速发展,人工智能(AI)与药物合成的融合加速,药物分子的设计和合成得到显着提升。近年来,数据驱动的计算机辅助合成工具迅速广泛地应用于逆合成分析、反应预测和自动化合成,可有效加速药物发现和开发过程,提高设计和合成药物分子的质量。
本文回顾了计算机辅助合成技术的发展和应用,从计算机辅助药物设计、计算机辅助药物合成路线设计和计算机辅助智能药物合成机三个方面介绍了计算机辅助药物开发的最新进展 。此外,还讨论了计算机辅助药物合成技术的挑战和机遇。
-
:图机器学习(GML)因其建模生物分子结构、它们之间的功能关系以及整合多组数据集的能力而受到制药和生物技术行业越来越多的关注。提出了一个关于药物发现和研发多学科的学术-工业综述的主题。在介绍了关键术语和建模方法之后,按时间顺序介绍了药物开发流程,以确定和总结工作包括:靶标识别、小分子和生物制剂的设计,以及药物的重新利用。尽管该领域仍处于新兴阶段,但关键的里程碑,包括重新用途的药物进入体内研究,表明GML将成为生物医学机器学习的建模框架选择。
-
:上个世纪的技术进步,以计算机革命和药物发现中高通量筛选技术的出现为标志,为生物活性分子的计算分析和可视化开辟了道路。为此,有必要以计算机可读且各领域科学家可理解的语法来表示分子。多年来已经开发了大量的化学表示,它们的数量众多是由于计算机的快速发展以及产生包含所有结构和化学特征的表示的复杂性。在这里展示了一些用于药物发现的最流行的电子分子和大分子表示,其中许多是基于图形表示的。此外,描述了这些表示在
AI 驱动的药物发现中的应用。目标是提供一个关于结构表示的简要指南,这对于人工智能在药物发现中的实践至关重要。这篇综述为那些在处理化学表征方面缺乏经验并计划在这些领域的接口上开展应用工作的研究人员提供指导。
-
摘要 :毒性预测对公共卫生非常重要。在其众多应用中,毒性预测对于降低药物临床前和临床试验的成本和劳动力至关重要,因为预测的毒性可以避免许多药物评估(细胞、动物和临床)。在大数据和人工智能时代,毒性预测可以受益于机器学习,机器学习已广泛应用于自然语言处理、语音识别、图像识别、计算化学、生物信息学等诸多领域,表现优异。
本文回顾了已应用于毒性预测的机器学习方法,包括深度学习、随机森林、k-最近邻和支持向量机 。还讨论了机器学习算法的输入参数,特别是它从仅描述化学结构描述转变为结合人类转录组数据分析,这可以大大提高预测准确性。
AI 制药领域需要人工智能和药物研发的深度交叉过程,AI可以有效地应用于药物发现的不同领域,包括药物设计、化学合成、药物筛选、多药理学和药物再利用。
-
摘要 :在三维分子结构上运行的计算方法有可能解决生物学和化学中的重要问题。特别是,深度神经网络已经获得了极大的关注,但由于缺乏系统的性能基准或用于与分子数据交互的统一工具包,它们在生物分子领域的广泛采用受到了限制。为了解决这个问题, 提出了ATOM3D
,它是一个新的和现有的基准数据集的集合,涵盖了几个关键的生物分子类别。为了降低进入门槛并促进该领域的进一步发展,开源 atom3d Python 包中提供了一整套用于数据集处理、模型训练和评估的工具。
-
摘要 :从 2D 分子图预测稳定的 3D 构象一直是计算化学中的一项长期挑战。最近,与传统的实验和基于物理的模拟方法相比,机器学习方法已经显示出非常有希望的结果。这些方法主要侧重于对分子图上相邻原子之间的局部相互作用进行建模,而忽略了非键合原子之间的长程相互作用。然而,这些非键合原子在 3D
空间中可能彼此接近,并且建模它们的相互作用对于准确确定分子构象至关重要,特别是对于大分子和多分子复合物。本文 提出了一种称为动态图分数匹配 (DGSM) 的新方法,用于分子构象预测
,该方法通过在训练和推理过程中根据原子之间的空间接近度动态构建图结构来模拟局部和远程相互作用。具体来说,DGSM根据动态构建的图,使用分数匹配方法直接估计原子坐标对数密度的梯度场。可以以端到端的方式有效地训练整个框架。跨多个任务的实验表明,DGSM 在很大程度上优于最先进的基线,并且能够为更广泛的系统(如蛋白质和多分子复合物)生成构象。
-
摘要:了解配体与其分子靶标之间形成的相互作用是指导分子优化的关键。已应用不同的实验和计算方法来更好地理解这些分子间相互作用。本文报告了一种基于几何深度学习的方法,该方法能够预测配体与蛋白质靶标的结合构象。该模型基于距离似然学习统计潜力,这是为每个配体-目标量身定制的。这种潜力可以与全局优化算法相结合,以重现配体的实验结合构象。结果表明,此处描述的基于距离似然的潜力与用于对接和筛选任务的成熟评分函数相似或更好。总体而言,这种方法代表了如何使用人工智能来改进基于结构的药物设计的一个例子。
-
:在多药理学中,药物需要与多个特定靶点结合,例如增强疗效或减少耐药性的形成。虽然深度学习在药物发现的从头设计方面取得了突破性进展,但其应用大多只针对单一药物靶点生成类药物活性分子。然而,在现实中,药物分子经常与多个靶点相互作用,这些靶点可能具有预期的(多药理学)或非预期的(毒性)作用。在之前的研究中,提出了一种名为DrugEx的新方法,该方法将探索策略整合到基于RNN的强化学习中,以提高生成分子的多样性。
本文将DrugEx算法进行多目标优化扩展,生成针对多个靶点或一个特定靶点的类药物分子,同时避免脱靶 (本研究中的两个腺苷受体A1AR和A2AAR,以及钾离子通道hERG)。
模型使用RNN作为agent,机器学习预测器作为环境。在强化学习框架下,agent和环境都预先进行了训练,然后相互作用。该方法融合了进化算法的概念,通过与agent相同的深度学习模型实现交叉和变异操作。在训练循环过程中,agent生成一批基于smile的分子。随后,环境提供的所有目标的分数被用来构建生成的分子的帕累托秩。对于这个排名,一个非支配的排序算法和谷本基于拥挤距离算法使用化学指纹被应用。证明了化合物的生成具有多种预测的对多个目标的选择性,提供了高效和低毒的潜力。
-
摘要 :蛋白质的生物学功能由其 3D 分子表面的几何和化学结构定义。最近的工作表明,几何深度学习可用于基于网格的蛋白质表示,以识别潜在的功能位点,例如潜在药物的结合目标。不幸的是,使用网格作为蛋白质结构的底层表示具有多个缺点,包括需要预先计算输入特征和网格连接性。这成为蛋白质科学中许多重要任务的瓶颈。本文
提出了一个新的蛋白质结构深度学习框架 ,以解决这些限制。方法的主要优点之一是从底层原子点云和一个新颖的高效几何卷积层中即时计算和采样分子表面。因此,能够以端到端的方式处理大量蛋白质,将原始 3D
坐标和其原子的化学类型作为唯一输入,无需任何手工制作的预先计算的特征。这些结果将大大简化蛋白质科学中深度学习方法的部署,并为蛋白质建模任务(如功能预测和设计)中的端到端可微方法打开大门。
-
制剂的数据样本。机器学习算法lightGBM用于构建性能良好(R2>0.87)的预测模型。更重要的是,该算法确定了 LNP 中可电离脂质的关键亚结构,这与已发表的结果非常吻合。动物实验结果表明,使用 DLin-MC3-DMA (MC3) 作为可离子化脂质的 LNP,N/P 比为 6:1,在小鼠体内的效率高于使用 SM-102 的
LNP,这与模型预测一致。分子动力学建模进一步研究了实验中使用的 LNP 的分子机制。结果表明,脂质分子聚集形成LNP,mRNA分子缠绕在LNP周围。综上所述, 首先开发了基于 LNP 的 mRNA
疫苗的机器学习预测模型,并通过实验验证,并进一步与分子建模相结合 。该预测模型未来可用于LNP配方的虚拟筛选。
-
摘要 :确定单个蛋白质结构所需的数月至数年的艰苦努力使结构覆盖成为瓶颈。需要准确的计算方法来解决这一差距并实现大规模的结构生物信息学。50多年来,仅根据氨基酸序列预测蛋白质将采用的三维结构——"蛋白质折叠问题"的结构预测部分——一直是一个重要的开放性研究问题。尽管最近取得了进展,但现有方法远远达不到原子精度,尤其是在没有同源结构可用的情况下。本文
提供了第一个计算方法,即使在不知道相似结构的情况下,也可以定期预测具有原子精度的蛋白质结构 。在具有挑战性的第 14 次蛋白质结构预测关键评估 (CASP14)中验证了基于神经网络的模型 AlphaFold 的完全重新设计的版本,在大多数情况下证明了与实验结构竞争的准确性,并且大大优于其他方法。支持最新版本的 AlphaFold
是一种新颖的机器学习方法,它将有关蛋白质结构的物理和生物学知识,利用多序列比对,整合到深度学习算法的设计中。
-
:多类型蛋白质-蛋白质相互作用(PPI)的研究是从系统的角度理解生物过程和揭示疾病机制的基础。目前的评估忽略了新蛋白间的相互作用,因此未能给出有指导意义的评估。因此,从评估和方法两方面来解决这个问题。首先,设计了一个新的评估框架,该框架充分关注新蛋白间的相互作用,并在数据集之间提供一致的评估。其次,认为蛋白质之间的相关性必须为分析新蛋白质提供有用的信息,并在此基础上,提出了一种基于图神经网络的方法(GNN-PPI),以
更好地预测新蛋白质间的相互作用 。
-
摘要 :应用于化学的深度学习方法可以用来加速新分子的发现。 本文介绍了一个 利用图神经网络(gnn)开发的基于图的分子设计平台 GraphINVENT。 GraphINVENT使用一种分层的深度神经网络架构,以概率的方式每次生成一个单键的新分子。
GraphINVENT中实现的所有模型都可以快速学会构建类似于训练集分子的分子,而不需要任何明确的化学规则编程。 这些模型已经使用基于MOSES分布的度量标准进行了基准测试,显示了GraphINVENT模型与最先进的生成模型之间的良好对比。 这项工作在GraphINVENT中比较了六种不同的基于gnn的生成模型,并表明最终门控图神经网络比本文考虑的度量性能最好。
-
。在这项工作中,讨论了开发自己的分子生成模型的研究人员可能感兴趣的技术细节,包括对基于图的分子设计和设计新模型的策略的先前工作的概述。还提供了在代码开发过程中有用的开发和调试工具的建议。最后,本文描述了一些经过测试但最终未能在GraphINVENT开发中带来有希望的结果的方法,希望这将帮助其他研究人员避免开发过程中的陷阱,转而将精力集中在更有前途的基于图的分子生成策略上。
-
摘要 :通过使用基于图形或字符串(SMILES)的表示,已经设计出了一系列体系结构,以找到生成化合物的最佳方法。本研究目标是 为社区提供一个用于从头设计新药物的生产工具
,称为REINVENT。它可以有效地应用于药物发现项目,努力解决探索或开发问题,同时导航化学空间。它可以使研究人员注意到最有前途的化合物。
-
摘要 :本工作 介绍了一种方法来调整基于序列的分子从头设计生成模型,通过增强的情景似然可以学习生成具有特定理想属性的结构。将演示该模型如何执行一系列任务,例如生成查询结构的类似物和生成预计对生物目标具有活性的化合物。
-
摘要 :生成模型正在成为探索分子空间的首选工具。这些模型在大型训练数据集上学习,并产生具有相似特性的新型分子结构。生成的结构可用于虚拟筛选或在下游任务中训练半监督预测模型。虽然有很多生成模型,但尚不清楚如何对它们进行比较和排名。本工作 引入了一个名为 Molecular Sets
(MOSES) 的基准测试平台来标准化分子生成模型的训练和比较 。 MOSES 提供训练和测试数据集,以及一组指标来评估生成结构的质量和多样性。
-
摘要 :从头设计旨在通过虚拟设计-制造-测试循环生成具有所需特性配置文件的分子。随着深度学习和神经生成模型在许多应用领域的出现,基于神经网络的分子设计模型最近出现并显示出可喜的成果。然而,新模型并没有针对一致的任务进行分析,并且很少对成熟的算法进行比较研究。为了标准化对从头分子设计的经典模型和神经模型的评估,
提出了一个基于一套标准化基准的评估框架 GuacaMol。基准任务包括测量模型的保真度以重现训练集的属性分布、生成新分子的能力、化学空间的探索和利用,以及各种单目标和多目标优化任务。
-
提出了一种有效的自监督学习策略——掩蔽原子预测,对大量未标记数据进行MG-BERT模型的预训练,挖掘分子中的上下文信息
。发现MG-BERT模型可以在预训练后生成上下文敏感的原子表示,并将学习到的知识用于预测各种分子性质。MG-BERT模型不需要任何手工制作的特征作为输入,由于其出色的可解释性,更可靠,为开发最先进的模型提供了一个新的框架,用于广泛的药物发现任务。
-
研究已经研究了物理和化学知识,以手动设计描述符以有效预测属性。这项研究扩展了一个消息传递神经网络 (MPNN),一种知识嵌入 的新型 MPNN 架构(KEMPNN) ,该架构可以与人类专家在包含有关信息的化学图上的非定量知识注释一起 监督分子的重要子结构及其对目标特性的影响 (例如,正面或负面影响)。使用
MoleculeNet(ESOL、FreeSolv、Lipophilicity)中的物理化学数据集和带有虚拟知识注释的聚合物特性(玻璃化转变温度)数据集,在小型训练数据设置中评估了 KEMPNN 的性能。结果表明,具有知识监督的KEMPNN可以提高从MPNN获得的预测精度。
-
种不同类型的生物活性(包括目标谱、细胞反应和临床结果)相关,可用作日常化学信息学任务中化学描述符的替代品。事实上,说明了推断的生物活性特征如何有助于以生物学相关的方式导航化学空间,揭示天然产物集合中的高阶组织,并丰富大多数未表征的化学库以对抗药物-孤儿靶标 Snail1。此外,实施了一系列特征-活动关系 (SigAR)
模型,并在一系列生物物理学和生理学活动预测基准中显示了基于化学分类器的性能显着提高。
-
摘要 :分子性质预测能力对药物发现、人类健康和环境保护具有重要意义。尽管某些机器学习模型(例如来自 Transformer 的双向编码器)可以通过自监督学习策略将大量未标记的分子数据整合到分子表示中,但它忽略了三维 (3D) 立体化学信息。代数图,特别是元素特定的多尺度加权彩色代数图,将互补的 3D
分子信息嵌入到图不变量中。通过融合代数图和双向变换器生成的表示以及各种机器学习算法,包括决策树、多任务学习和深度神经网络,提出了一个代数图辅助双向变换器(AGBT)框架。在8个分子数据集上验证了提议的 AGBT 框架,涉及定量毒性、物理化学和生理学数据集。大量的数值实验表明, AGBT是一种最先进的分子特性预测框架 。
-
摘要 :毒性分析是药物设计和发现的主要挑战。由于机器学习的准确性、效率和较低的成本,最近通过机器学习取得了重大进展。美国 21 世纪毒理学 (Tox21) 筛选了一个庞大的化合物库,其中包括大约 12000 种环境化学品和药物,以了解导致毒性作用的不同机制。Tox21 数据挑战赛提供了一个平台来评估毒性预测的不同计算方法。受多尺度加权彩色图
(MWCG) 理论在蛋白质-配体结合亲和力预测中的成功启发,将 MWCG 理论用于毒性分析。在目前的工作中, 通过集成 MWCG 特征和梯度提升决策树 (GBDT) 算法开发了几何图学习毒性
(GGL-Tox) 模型 。Tox21 数据挑战的基准测试用于证明所提出的 GGL-Tox 模型的实用性和实用性。与其他最先进模型的广泛比较表明,GGL-Tox 是一种准确有效的毒性分析和预测模型。
-
摘要 :图神经网络(GNN)被认为是一种有吸引力的分子性质预测建模方法,大量研究表明,与传统的基于描述符的方法相比,GNN可以产生更有前景的结果。本研究基于覆盖不同属性端点的11个公共数据集,采用8种机器学习(ML)算法,包括4种基于描述符的模型(SVM、XGBoost、RF和DNN)和4种基于图的模型(GCN、GAT、MPNN和FP),
对预测模型的预测能力和计算效率进行了研究,进行了广泛的测试和比较 。总之,认为现有的基于描述符的模型仍然可以直接用于准确预测各种化学端点,具有良好的可计算性和可解释性。
-
,作为药物引起的肾毒性的案例。为了实现这一目标,使用化合物处理后源自人类细胞系的廉价转录组谱来训练模型,并结合化合物化学结构信息。基因组学数据由于其稀疏、高维和嘈杂的性质,在构建可信赖和透明的机器学习模型方面提出了重大挑战。在这里,通过从异构来源构建特征集并将它们与通过基于高斯过程的贝叶斯模型实现的模型不确定性度量相结合来解决这些问题。
-
:生物医学数据,特别是基因组学领域的数据,具有对机器学习应用具有挑战性的特点——它可能是稀疏的、高维的和有噪声的。生物医学应用也对模型选择提出了挑战——尽管强大、准确的预测是必要的,但它们不足以使模型被视为有用。由于预测的性质,模型还必须是可信任和透明的,使从业者有信心使用它是适当和可靠的。本文通过建立特征集与贝叶斯模型,特别是高斯过程来实现。
将高斯过程应用于药物发现,利用人类细胞系的廉价转录组谱预测特定化合物治疗后动物肾脏和肝脏的毒性 。如果体外人体细胞系分析能够准确预测模型动物表型,这种方法有可能减少临床试验中侵入性和昂贵的动物试验。
-
摘要:神经机制的进步为分子性质预测带来了广泛的算法解决方案。有两类模型产生了很有希望的结果:应用于计算分子指纹或专家制作的描述符的神经网络,以及通过操作分子的图结构来构建学习分子表示的图卷积神经网络。然而,最近的文献还没有明确地确定这两种方法中哪一种在推广到新的化学空间时更优越。此外,以往的研究很少在工业研究环境中对这些新模型进行比较,而不是现有的应用模型。本文在跨越各种化学终点的19个公共和16个专有工业数据集上广泛地对模型进行基准测试。此外,引入了一个图卷积模型,该模型在公共和私有数据集上始终匹配或优于使用固定分子描述符的模型以及以前的图神经结构。