DASSI: tìm kiếm kiến trúc vi sai cho việc nhận diện splice từ chuỗi DNA

Shabir Moosa1, Abbes Amira2, Sabri Boughorbel1
1Department of Systems Biology, SIDRA Medicine, Doha, 26999, Qatar
2Dept. of Computer Science and Engineering, Qatar University, Doha, 2713, Qatar

Tóm tắt

Tóm tắtBối cảnhSự bùng nổ dữ liệu do tiến bộ chưa từng có trong lĩnh vực hệ gen đang liên tục thách thức các phương pháp truyền thống trong việc giải thích hệ gen người. Nhu cầu cho các thuật toán mạnh mẽ trong những năm gần đây đã mang lại thành công lớn trong lĩnh vực Học Sâu (Deep Learning - DL) trong việc giải quyết nhiều nhiệm vụ khó khăn trong xử lý hình ảnh, giọng nói và ngôn ngữ tự nhiên bằng cách tự động hóa quá trình thiết kế kiến trúc. Điều này được thúc đẩy thông qua sự phát triển của các kiến trúc DL mới. Tuy nhiên, hệ gen có những thách thức đặc thù đòi hỏi tùy chỉnh và phát triển mô hình DL mới.Phương phápChúng tôi đề xuất một mô hình mới, DASSI, bằng cách thích nghi một phương pháp tìm kiếm kiến trúc vi sai và áp dụng nó cho nhiệm vụ nhận diện splice site (SS) trên chuỗi DNA để phát hiện các kiến trúc hội tụ hiệu năng cao mới theo cách tự động. Chúng tôi đã đánh giá mô hình khám phá này so với các công cụ tiên tiến để phân loại SS đúng và sai ở Homo sapiens (Người), Arabidopsis thaliana (Thực vật), Caenorhabditis elegans (Giun) và Drosophila melanogaster (Ruồi).Kết quảĐánh giá thực nghiệm của chúng tôi chỉ ra rằng kiến trúc được phát hiện vượt trội so với các mô hình cơ bản và kiến trúc cố định, và hiển thị kết quả cạnh tranh khi so với các mô hình tiên tiến được sử dụng trong phân loại splice site. Mô hình đề xuất - DASSI có kiến trúc gọn và cho kết quả rất tốt trong một nhiệm vụ học chuyển giao. Các thí nghiệm chuẩn hóa về thời gian thực thi và độ chính xác trong quá trình tìm kiếm và đánh giá kiến trúc cho thấy hiệu suất tốt hơn trên GPU hiện có, khiến cho việc áp dụng các phương pháp tìm kiếm kiến trúc trên tập dữ liệu lớn khả thi.Kết luậnChúng tôi đề xuất sử dụng phương pháp tìm kiếm kiến trúc vi sai (DASSI) để thực hiện phân loại SS trên chuỗi DNA thô và khám phá các mô hình mạng nơ-ron mới với số lượng tham số có thể điều chỉnh thấp và hiệu suất cạnh tranh so với các kiến trúc được thiết kế thủ công. Chúng tôi đã chuẩn hóa mô hình DASSI rộng rãi với các mô hình tiên tiến khác và đánh giá hiệu suất tính toán của nó. Kết quả cho thấy tiềm năng cao việc sử dụng cơ chế tìm kiếm kiến trúc tự động để giải quyết các vấn đề khác nhau trong lĩnh vực hệ gen.

Từ khóa

#Genomics #Deep Learning #Splice Site Recognition #DNA Sequences #Architecture Search #Neural Networks

Tài liệu tham khảo

Baldi P, Sadowski P, Whiteson D. Searching for exotic particles in high-energy physics with deep learning. Nat Commun. 2014; 5:4308.

Goh G, Hodas N, Vishnu A. Deep learning for computational chemistry. J Comput Chem. 2017; 38(16):1291–307.

Esteva A, Kuprel B, Novoa R, Ko J, Swetter S, Blau H, Thrun S. Dermatologist-level classification of skin cancer with deep neural networks. Nat. 2017; 542(7639):115.

Liu H, Simonyan K, Vinyals O, Fernando C, Kavukcuoglu K. Hierarchical representations for efficient architecture search. 2017. Preprint at https://arxiv.org/abs/1711.00436.

Real E, Aggarwal A, Huang Y, Le Q. Regularized evolution for image classifier architecture search. Proceedings of the Thirty-Third AAAI conference on artificial intelligence. 2019; 33(1):4780–4789.

Zoph B, Le QV. Neural architecture search with reinforcement learning. 2016. Preprint at https://arxiv.org/abs/1611.01578.

Zoph B, Vasudevan V, Shlens J, Le Q. Learning transferable architectures for scalable image recognition. In: Proceedings of the Thirty-First IEEE conference on computer vision and pattern recognition: 18-22 June 2018. Utah: 2017. p. 8697–8710.

Summers P. A methodology for lisp program construction from examples. J ACM (JACM). 1977; 24(1):161–75.

Baker B, Gupta O, Raskar R, Naik N. Accelerating neural architecture search using performance prediction. 2017. Preprint at https://arxiv.org/abs/1705.10823.

Brock A, Lim T, Ritchie JM, Weston N. Smash: one-shot model architecture search through hypernetworks. 2017. Preprint at https://arxiv.org/abs/1708.05344.

Pham H, Guan M, Zoph B, Le Q, Dean J. Efficient neural architecture search via parameters sharing. In: Proceedings of the Thirty-Fifth International Conference on Machine Learning: 10-15 July. Stockholm: 2018. p. 4095–4104.

Liu H, Simonyan K, Yang Y. Darts: Differentiable architecture search. 2018. Preprint at https://arxiv.org/abs/1806.09055.

Lee B, Lee T, Na B, Yoon S. DNA-level splice junction prediction using deep recurrent neural networks. 2015. Preprint at https://arxiv.org/abs/1512.05135.

Au K, Jiang H, Lin L, Xing Y, Wong W. Detection of splice junctions from paired-end rna-seq data by splicemap. Nucleic Acids Res. 2010; 38(14):4570–8.

Trapnell C, Pachter L, Salzberg S. Tophat: discovering splice junctions with rna-seq. Bioinforma. 2009; 25(9):1105–11.

Baten AK, Chang BC, Halgamuge SK, Li J. Splice site identification using probabilistic parameters and svm classification. BMC Bioinformatics BioMed Central. 2006; 7(5):1–15.

Meher P, Sahu T, Rao A, Wahi S. Identification of donor splice sites using support vector machine: a computational approach based on positional, compositional and dependency features. Algorithm Mol Biol. 2016; 11(1):16.

Zhang Y, Chu C-H, Chen Y, Zha H, Ji X. Splice site prediction using support vector machines with a bayes kernel. Expert Syst Appl. 2006; 30(1):73–81.

Wei D, Zhuang W, Jiang Q, Wei Y. A new classification method for human gene splice site prediction In: He J, Liu X, Krupinski EA, Xu G, editors. Health Information Science. Springer: 2012. p. 121–30.

Pashaei E, Aydin N. Markovian encoding models in human splice site recognition using svm. Comput Biol Chem. 2018; 73:159–70.

Pashaei E, Yilmaz A, Aydin N. A combined SVM and Markov model approach for splice site identification. In: Proceedings of the Sixth International Conference on Computer and Knowledge Engineering (ICCKE): 20-21 October 2016. Mashhad: IEEE: 2016. p. 200–4.

Meher P, Sahu T, Rao A. Prediction of donor splice sites using random forest with a new sequence encoding approach. BioData Min. 2016; 9(1):4.

Pashaei E, Ozen M, Aydin N. Splice site identification in human genome using random forest. Health Technol. 2017; 7(1):141–52.

Pashaei E, Ozen M, Aydin N. Random forest in splice site prediction of human genome. In: Proceedings of the Fourteenth Mediterranean Conference on Medical and Biological Engineering and Computing: 31 March-2 April 2016. Paphos: Springer: 2016. p. 518–23.

Lopes H, Erig Lima C, Murata N. A configware approach for high-speed parallel analysis of genomic data. J Circ Syst Comput. 2007; 16(04):527–40.

Kamath U, De Jong K, Shehu A. Effective automated feature construction and selection for classification of biological sequences. PloS one. 2014; 9(7):99982.

Zhang Q, Peng Q, Zhang Q, Yan Y, Li K, Li J. Splice sites prediction of human genome using length-variable markov model and feature selection. Expert Syst Appl. 2010; 37(4):2771–82.

Pashaei E, Yilmaz A, Ozen M, Aydin N. Prediction of splice site using AdaBoost with a new sequence encoding approach. In: Proceedings of the IEEE International Conference on Systems, Man, and Cybernetics (SMC): 9-12 October 2016. Budapest: IEEE: 2016. p. 3853–3858.

Pashaei E, Yilmaz A, Ozen M, Aydin N. A novel method for splice sites prediction using sequence component and hidden markov model. In: Proceedings of the 38th Annual International Conference of the IEEE Engineering in Medicine and Biology Society (EMBC):16-20 August 2016. Florida: IEEE: 2016. p. 3076–9.

Pashaei E, Ozen M, Aydin N. Splice sites prediction of human genome using AdaBoost. In: Proceedings of the IEEE-EMBS International Conference on Biomedical and Health Informatics (BHI):24-27 February 2016. Las Vegas: IEEE: 2016. p. 300–3.

Pashaei E, Aydin N. Frequency difference based DNA encoding methods in human splice site recognition. In: Proceedings of the International Conference on Computer Science and Engineering (UBMK):5-7 July 2017. London: IEEE: 2017. p. 586–91.

Ryen T, Eftes T, Kjosmoen T, Ruoff P, et al. Splice site prediction using artificial neural networks. In: Proceedings of the Fifth International Meeting on Computational Intelligence Methods for Bioinformatics and Biostatistics:3-4 October 2008. Berlin: Springer: 2008. p. 102–13.

Elsousy R, Kathiresan N, Boughorbel S. On the depth of deep learning models for splice site identification. bioRxiv,. 2018:380667.

Du X, Yao Y, Diao Y, Zhu H, Zhang Y, Li S. Deepss: Exploring splice site motif through convolutional neural network directly from dna sequence. IEEE Access. 2018; 6:32958–78.

Albaradei S, Magana-Mora A, Thafar M, Uludag M, Bajic VB, Gojobori T, Magbubah E, Jankovic BR. Splice2Deep: An ensemble of deep convolutional neural networks for improved splice site prediction in genomic DNA. Gene: X. 2020; 5:100035.

Wang R, Wang Z, Wang J, Li S. Splicefinder: ab initio prediction of splice sites using convolutional neural network. BMC Bioinforma. 2019; 20(23):652.

Naito T. Human splice-site prediction with deep neural networks. J Comput Biol. 2018; 25(8):954–61.

Kothen-Hill ST, Zviran A, Schulman RC, Deochand S, Gaiti F, Maloney D, Huang K, Liao W, Robine N, Omans ND, Landau D. Deep learning mutation prediction enables early stage lung cancer detection in liquid biopsy. In: Proceedings of the Sixth International Conference on Learning Representations: 30 April-3 May 2018. Vancouver: 2018.

Lee T, Yoon S. Boosted categorical restricted Boltzmann machine for computational prediction of splice junctions. In: Proceedings of the Thirty-Second International conference on machine learning: 6-11 July 2015. France: 2015. p. 2483–92.

Lee B, Baek J, Park S, Yoon S. deepTarget: end-to-end learning framework for microRNA target prediction using deep recurrent neural networks. In: Proceedings of the Seventh ACM International Conference on Bioinformatics, Computational Biology, and Health Informatics: 2-5 October 2016. Seattle: ACM: 2016. p. 434–42.

Xu Z-C, Wang P, Qiu W-R, Xiao X. iss-pc: Identifying splicing sites via physical-chemical properties using deep sparse auto-encoder. Sci Rep. 2017; 7(1):8222.

Sonnenburg S, Schweikert G, Philips P, Behr J, Rätsch G. Accurate splice site prediction using support vector machines. In: BMC Bioinforma, vol. 8. Springer: 2007. p. 7.