Học tăng cường hỗ trợ bộ nhớ cho thiết kế phân tử de novo đa dạng

Thomas Blaschke1, Ola Engkvist1, Jürgen Bajorath2, Hongming Chen3
1Hit Discovery, Discovery Sciences, R&D, AstraZeneca Gothenburg, Mölndal, Sweden
2Department of Life Science Informatics, LIMES Program Unit Chemical Biology and Medicinal Chemistry B-IT, Rheinische Friedrich-Wilhelms-Universität, Endenicher Allee 19c, Bonn, 53115, Germany
3Centre of Chemistry and Chemical Biology, Guangzhou Regenerative Medicine and Health-Guangdong Laboratory, Science Park, Guangzhou, China

Tóm tắt

Tóm tắt

Trong thiết kế phân tử de novo, mạng nơ-ron hồi tiếp (RNN) đã được chứng minh là các phương pháp hiệu quả trong việc lấy mẫu và tạo ra các cấu trúc hóa học mới. Bằng cách sử dụng một kỹ thuật gọi là học tăng cường (RL), một RNN có thể được điều chỉnh để nhắm vào một phần cụ thể trong không gian hóa học với các thuộc tính mong muốn được tối ưu hóa thông qua một hàm điểm số. Tuy nhiên, các ligand được tạo ra bởi các phương pháp RL hiện tại thường có sự đa dạng tương đối thấp, và đôi khi thậm chí dẫn đến các cấu trúc trùng lặp khi tối ưu hóa về các thuộc tính mong muốn. Tại đây, chúng tôi đề xuất một phương pháp mới để giải quyết vấn đề đa dạng thấp trong RL cho thiết kế phân tử. Học tăng cường hỗ trợ bộ nhớ là một phần mở rộng của RL đã biết, với sự giới thiệu của một đơn vị bộ nhớ. Như một chứng minh khái niệm, chúng tôi đã áp dụng phương pháp của mình để tạo ra các cấu trúc có giá trị AlogP mong muốn. Trong một nghiên cứu trường hợp thứ hai, chúng tôi đã áp dụng phương pháp của mình để thiết kế các ligand cho thụ thể dopamine loại 2 và thụ thể 5-hydroxytryptamine loại 1A. Đối với cả hai thụ thể, một mô hình học máy đã được phát triển để dự đoán xem liệu các phân tử được tạo ra có hoạt động hay không đối với thụ thể. Trong cả hai nghiên cứu trường hợp, người ta phát hiện ra rằng học tăng cường hỗ trợ bộ nhớ đã dẫn đến việc tạo ra nhiều hợp chất được dự đoán là hoạt động có tính đa dạng hóa học cao hơn, do đó đạt được sự bao phủ tốt hơn của không gian hóa học của các ligand đã biết so với các phương pháp RL đã thiết lập.

Từ khóa


Tài liệu tham khảo

Silver D, Huang A, Maddison CJ et al (2016) Mastering the game of Go with deep neural networks and tree search. Nature 529:484–489. https://doi.org/10.1038/nature16961

Topol EJ (2019) High-performance medicine: the convergence of human and artificial intelligence. Nat Med 25:44–56. https://doi.org/10.1038/s41591-018-0300-7

Sturm N, Mayr A, Le Van T et al (2020) Industry-scale application and evaluation of deep learning for drug target prediction. J Cheminform 12:26. https://doi.org/10.1186/s13321-020-00428-5

de León AD, Chen B, Gillet VJ (2018) Effect of missing data on multitask prediction methods. J Cheminform 10:26. https://doi.org/10.1186/s13321-018-0281-z

Rogers D, Hahn M (2010) Extended-connectivity fingerprints. J Chem Inf Model 50:742–754. https://doi.org/10.1021/ci100050t

Jaeger S, Fulle S, Turk S (2018) Mol2vec: unsupervised machine learning approach with chemical intuition. J Chem Inf Model 58:27–35. https://doi.org/10.1021/acs.jcim.7b00616

Kadurin A, Nikolenko S, Khrabrov K et al (2017) druGAN: an advanced generative adversarial autoencoder model for de novo generation of new molecules with desired molecular properties in silico. Mol Pharm 14:3098–3104. https://doi.org/10.1021/acs.molpharmaceut.7b00346

Kearnes S, McCloskey K, Berndl M et al (2016) Molecular graph convolutions: moving beyond fingerprints. J Comput Aided Mol Des 30:595–608. https://doi.org/10.1007/s10822-016-9938-8

Wu Z, Ramsundar B, Feinberg EN et al (2018) MoleculeNet: a benchmark for molecular machine learning. Chem Sci 9:513–530. https://doi.org/10.1039/C7SC02664A

Chen H, Engkvist O, Wang Y et al (2018) The rise of deep learning in drug discovery. Drug Discov Today 23:1241–1250. https://doi.org/10.1016/j.drudis.2018.01.039

Chen H, Engkvist O (2019) Has drug design augmented by artificial intelligence become a reality? Trends Pharmacol Sci 40:806–809. https://doi.org/10.1016/j.tips.2019.09.004

Blaschke T, Olivecrona M, Engkvist O et al (2018) Application of Generative Autoencoder in De Novo Molecular Design. Mol Inform 37:1700123. https://doi.org/10.1002/minf.201700123

Segler MHS, Kogej T, Tyrchan C, Waller MP (2018) Generating focused molecule libraries for drug discovery with recurrent neural networks. ACS Cent Sci 4:120–131. https://doi.org/10.1021/acscentsci.7b00512

Kotsias P-C, Arús-Pous J, Chen H et al (2020) Direct steering of de novo molecular generation with descriptor conditional recurrent neural networks. Nat Mach Intell 2:254–265. https://doi.org/10.1038/s42256-020-0174-5

Yu L, Zhang W, Wang J, Yu Y (2016) SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient. pp 2852–2858. arXiv:1609.05473

Olivecrona M, Blaschke T, Engkvist O, Chen H (2017) Molecular de-novo design through deep reinforcement learning. J Cheminform 9:48. https://doi.org/10.1186/s13321-017-0235-x

Sanchez-Lengeling B, Outeiral C, Guimaraes GL, Aspuru-Guzik A (2017) Optimizing distributions over molecular space. An objective-reinforced generative adversarial network for inverse-design chemistry (ORGANIC). ChemRxiv. https://doi.org/10.26434/chemrxiv.5309668

Putin E, Asadulaev A, Ivanenkov Y et al (2018) Reinforced adversarial neural computer for de Novo molecular design. J Chem Inf Model 58:1194–1204. https://doi.org/10.1021/acs.jcim.7b00690

Putin E, Asadulaev A, Vanhaelen Q et al (2018) Adversarial threshold neural computer for molecular de Novo design. Mol Pharm 15:4386–4397. https://doi.org/10.1021/acs.molpharmaceut.7b01137

Gupta A, Müller AT, Huisman BJH et al (2018) Generative recurrent networks for De Novo drug design. Mol Inform 37:1700111. https://doi.org/10.1002/minf.201700111

Merk D, Friedrich L, Grisoni F, Schneider G (2018) De Novo design of bioactive small molecules by artificial intelligence. Mol Inform 37:1700153. https://doi.org/10.1002/minf.201700153

Zhavoronkov A, Ivanenkov YA, Aliper A et al (2019) Deep learning enables rapid identification of potent DDR1 kinase inhibitors. Nat Biotechnol 37:1038–1040. https://doi.org/10.1038/s41587-019-0224-x

Polykovskiy D, Zhebrak A, Sanchez-Lengeling B, et al (2018) Molecular Sets (MOSES): a benchmarking platform for molecular generation models. arXiv:1811.12823

Benhenda M (2017) ChemGAN challenge for drug discovery: can AI reproduce natural chemical diversity? arXiv:1708.08227

Brown N, Fiscato M, Segler MHS, Vaucher AC (2019) GuacaMol: benchmarking models for de Novo molecular design. J Chem Inf Model 59:1096–1108. https://doi.org/10.1021/acs.jcim.8b00839

van Deursen R, Ertl P, Tetko IV, Godin G (2020) GEN: highly efficient SMILES explorer using autodidactic generative examination networks. J Cheminform 12:22. https://doi.org/10.1186/s13321-020-00425-8

Sutton RS, Barto AG (1998) Reinforcement Learning: an Introduction. IEEE Trans Neural Networks 9:1054. https://doi.org/10.1109/TNN.1998.712192

Metz L, Poole B, Pfau D, Sohl-Dickstein J (2016) Unrolled Generative Adversarial Networks. arXiv:1611.02163

Salimans T, Goodfellow I, Zaremba W, et al (2016) Improved techniques for Training GANs. arXiv:1606.03498

Cardoso AR, Abernethy J, Wang H, Xu H (2019) Competing against equilibria in Zero-Sum Games with evolving payoffs. arXiv:1907.07723

Liu X, Ye K, van Vlijmen HWT et al (2019) An exploration strategy improves the diversity of de novo ligands using deep reinforcement learning: a case for the adenosine A2A receptor. J Cheminform 11:35. https://doi.org/10.1186/s13321-019-0355-6

Blaschke T, Arús-Pous J, Chen H et al (2020) REINVENT 2.0 – an AI Tool for De Novo Drug Design. ChemRxiv. https://doi.org/10.26434/chemrxiv.12058026.v2

Gaulton A, Hersey A, Nowotka M et al (2017) The ChEMBL database in 2017. Nucleic Acids Res 45:D945–D954. https://doi.org/10.1093/nar/gkw1074

Jaccard P, Zurich E (1901) Étude comparative de la distribution florale dans une portion des Alpes et du Jura. Bull la Société Vaudoise des Sci Nat 37:547–579. https://doi.org/10.5169/seals-266450

Bemis GW, Murcko MA (1996) The Properties of Known Drugs. 1 Molecular Frameworks. J Med Chem 39:2887–2893. https://doi.org/10.1021/jm9602928

Carhart RE, Smith DH, Venkataraghavan R (1985) Atom pairs as molecular features in structure-activity studies: definition and applications. J Chem Inf Model 25:64–73. https://doi.org/10.1021/ci00046a002

Wildman SA, Crippen GM (1999) Prediction of Physicochemical Parameters by Atomic Contributions. J Chem Inf Comput Sci 39:868–873. https://doi.org/10.1021/ci990307l

Dalke A, Hert J, Kramer C (2018) mmpdb: an open-source matched molecular pair platform for large multiproperty data sets. J Chem Inf Model 58:902–910. https://doi.org/10.1021/acs.jcim.8b00173

Cortes C, Vapnik V (1995) Support-vector networks. Mach Learn 20:273–297. https://doi.org/10.1007/BF00994018

Sun J, Jeliazkova N, Chupakhin V et al (2017) ExCAPE-DB: an integrated large scale dataset facilitating Big Data analysis in chemogenomics. J Cheminform 9:17. https://doi.org/10.1186/s13321-017-0203-5

Sheridan RP, Feuston BP, Maiorov VN, Kearsley SK (2004) Similarity to molecules in the training set is a good discriminator for prediction accuracy in QSAR. J Chem Inf Comput Sci 44:1912–1928. https://doi.org/10.1021/ci049782w

Butina D (1999) Unsupervised data base clustering based on daylight’s fingerprint and tanimoto similarity: a fast and automated way to cluster small and large data sets. J Chem Inf Comput Sci 39:747–750. https://doi.org/10.1021/ci9803381

Pedregosa F, Varoquaux G, Gramfort A et al (2011) Scikit-learn: machine Learning in Python. J Mach Learn Res 12:2825–2830

Matthews BW (1975) Comparison of the predicted and observed secondary structure of T4 phage lysozyme. Biochim Biophys Acta Protein Struct 405:442–451. https://doi.org/10.1016/0005-2795(75)90109-9

Platt JC (1999) Probabilistic Outputs for Support Vector Machines and Comparisons to Regularized Likelihood Methods. In: Advances in Large Margin Classifiers. MIT Press, pp 61–74

Ralaivola L, Swamidass SJ, Saigo H, Baldi P (2005) Graph kernels for chemical informatics. Neural Networks 18:1093–1110. https://doi.org/10.1016/j.neunet.2005.07.009

Cho K, van Merrienboer B, Gulcehre C, et al (2014) Learning phrase representations using RNN encoder-decoder for statistical machine translation. arXiv:1406.1078

Kingma DP, Ba J (2014) Adam: A Method for Stochastic Optimization. arXiv:1412.6980

Hussain J, Rea C (2010) Computationally efficient algorithm to identify matched molecular Pairs (MMPs) in large data sets. J Chem Inf Model 50:339–348. https://doi.org/10.1021/ci900450m

Hu X, Hu Y, Vogt M et al (2012) MMP-Cliffs: systematic identification of activity cliffs on the basis of matched molecular Pairs. J Chem Inf Model 52:1138–1145. https://doi.org/10.1021/ci3001138

Kubat M (2017) Performance Evaluation. An Introduction to Machine Learning. Springer International Publishing, Cham, pp 211–229

Fawcett T (2006) An introduction to ROC analysis. Pattern Recognit Lett 27:861–874. https://doi.org/10.1016/j.patrec.2005.10.010

Lin L-J (1992) Self-improving reactive agents based on reinforcement learning, planning and teaching. Mach Learn 8:293–321. https://doi.org/10.1007/BF00992699

Neil D, Segler M, Guasch L, et al (2018) Exploring Deep Recurrent Models with Reinforcement Learning for Molecule Design. ICLR 2018