Lựa chọn đặc trưng cho hiệu suất cắt RNA tại các vị trí cụ thể bằng cách sử dụng mô hình hồi quy LASSO trong Arabidopsis thaliana

Daishin Ueno1, Harunori Kawabe1, Shotaro Yamasaki1, Taku Demura1, Ko Kato1
1Graduate School of Science and Technology, Nara Institute of Science and Technology, Ikoma, Japan

Tóm tắt

Sự phân hủy RNA đóng vai trò quan trọng trong việc điều hoà sự biểu hiện gen. Mặc dù đã xác định được các protein và trình tự liên quan đến sự phân hủy RNA phụ thuộc vào deadenylation trong thực vật, sự phân hủy RNA phụ thuộc vào cleavage endonucleolytic vẫn chưa được nghiên cứu chi tiết. Trong nghiên cứu này, chúng tôi phát triển kỹ thuật giải trình tự RNA đầu ngắn trong Arabidopsis thaliana để xác định các vị trí cắt và đánh giá hiệu suất cắt tại từng vị trí. Mặc dù một số đặc điểm liên quan đến hiệu suất cắt RNA, nhưng ảnh hưởng của từng đặc điểm đối với hiệu suất cắt chưa được đánh giá khi xem xét nhiều yếu tố tiềm năng trong A. thaliana. Thông tin về vị trí cắt được thu thập từ một nghiên cứu trước đó, và hiệu suất cắt tại cấp độ vị trí (giá trị CSsite), tức là số lượng đọc tại từng vị trí cắt được chuẩn hóa theo độ phong phú của RNA, đã được tính toán. Để xác định các yếu tố liên quan đến hiệu suất cắt tại cấp độ vị trí, nhiều yếu tố tiềm năng đã được sử dụng để thực hiện lựa chọn đặc trưng bằng cách sử dụng mô hình hồi quy LASSO. Kết quả chỉ ra rằng các đặc trưng RNA toàn phần là quan trọng cho giá trị CSsite, bên cạnh các đặc trưng xung quanh các vị trí cắt. Các đặc trưng RNA toàn phần liên quan đến quá trình dịch mã và tần số nucleotide xung quanh các vị trí cắt đã là những yếu tố quyết định chính của hiệu suất cắt. Kết quả được xác thực trong một mô hình được xây dựng chỉ bằng cách sử dụng các đặc trưng trình tự, cho thấy độ chính xác dự đoán tương tự như xác định bằng cách sử dụng tất cả các đặc trưng bao gồm cả quá trình dịch mã, gợi ý rằng hiệu suất cắt có thể được dự đoán chỉ bằng thông tin trình tự. Mô hình hồi quy LASSO đã được xác thực trong các gen ngoại lai, cho thấy rằng mô hình được xây dựng chỉ bằng thông tin trình tự có thể dự đoán hiệu suất cắt cho cả các gen nội sinh và ngoại lai. Việc lựa chọn đặc trưng sử dụng mô hình hồi quy LASSO trong A. thaliana đã xác định được 155 đặc trưng. Các hệ số tương quan cho thấy rằng các đặc trưng RNA toàn phần là quan trọng để xác định hiệu suất cắt bên cạnh các đặc trưng xung quanh các vị trí cắt. Mô hình hồi quy LASSO có thể dự đoán hiệu suất cắt trong các gen nội sinh và ngoại lai chỉ bằng thông tin trình tự. Mô hình đã chỉ ra tầm quan trọng của ảnh hưởng của nhiều yếu tố quyết định đến hiệu suất cắt, gợi ý rằng các đặc trưng trình tự là quan trọng cho các cơ chế phân hủy RNA trong A. thaliana.

Từ khóa


Tài liệu tham khảo

Keene JD. Minireview: global regulation and dynamics of ribonucleic acid. Endocrinology. 2010;151:1391–7. Parker R. RNA degradation in Saccharomyces cerevisae. Genetics. 2012;191:671–702. Chiba Y, Green PJ. mRNA degradation machinery in plants. J Plant Biol. 2009;52:114–24. Gregory BD, O’Malley RC, Lister R, Urich MA, Tonti-Filippini J, Chen H, et al. A link between RNA metabolism and silencing affecting arabidopsis development. Dev Cell. 2008;14:854–66. German MA, Pillay M, Jeong DH, Hetawal A, Luo S, Janardhanan P, et al. Global identification of microRNA-target RNA pairs by parallel analysis of RNA ends. Nat Biotechnol. 2008;26:941–6. Addo-Quaye C, Eshoo TW, Bartel DP, Axtell MJ. Endogenous siRNA and miRNA targets identified by sequencing of the arabidopsis degradome. Curr Biol. 2008;18:758–62. Weinberg DE, Shah P, Eichhorn SW, Hussmann JA, Plotkin JB, Bartel DP. Improved ribosome-footprint and mRNA measurements provide insights into dynamics and regulation of yeast translation. Cell Rep. 2016;14:1787–99. Ueno D, Yamasaki S, Demura T, Kato K. Comprehensive analysis of mRNA internal cleavage sites in Arabidopsis thaliana. J Biosci Bioeng. 2018;125:723–8. Ueno D, Mukuta T, Yamasaki S, Mikami M, Demura T, Matsui T, et al. Different plant species have common sequence features related to mRNA degradation intermediates. Plant Cell Physiol. 2020;61:53–63. Ibrahim F, Maragkakis M, Alexiou P, Mourelatos Z. Ribothrypsis, a novel process of canonical mRNA decay, mediates ribosome-phased mRNA endonucleolysis. Nat Struct Mol Biol. 2018;25:302–10. Ueno D, Mikami M, Yamasaki S, Kaneko M, Mukuta T, Demura T, et al. Changes in mRNA degradation efficiencies under varying conditions are regulated by multiple determinants in Arabidopsis thaliana. Plant Cell Physiol. 2020;62:143–55. Nie L, Wu G, Zhang W. Correlation of mRNA expression and protein abundance affected by multiple sequence features related to translational efficiency in Desulfovibrio vulgaris: a quantitative analysis. Genetics. 2006;174:2229–43. Cheng J, Maier KC, Avsec Ž, Petra RUS, Gagneur J. Cis-regulatory elements explain most of the mRNA stability variation across genes in yeast. RNA. 2017;23:1648–59. Kyung M, Gilly J, Ghoshz M, Casellax G. Penalized regression, standard errors, and Bayesian lassos. Bayesian Anal. 2010;5:369–412. Tishbirani R. Regression shrinkage and selection via the Lasso. J R Stat Soc Ser B (Methodological). 1996;58:267–88. Hu Q, Merchante C, Stepanova AN, Alonso JM, Heber S. Mining transcript features related to translation in Arabidopsis using LASSO and random forest. 2015 IEEE 5th Int Conf Comput Adv Bio Med Sci ICCABS 2015. 2015;1–6. Qabaja A, Alshalalfa M, Bismar TA, Alhajj R. Protein network-based Lasso regression model for the construction of disease-miRNA functional interactions Computational methods for biomarker discovery and systems biology research. Eurasip J Bioinforma Syst Biol. 2013;2013:1–11. Dai X, Zhao PX. PsRNATarget: A plant small RNA target analysis server. Nucleic Acids Res. 2011;39(SUPPL. 2):155–9. Hou CY, Lee WC, Chou HC, Chen AP, Chou SJ, Chen HM. Global analysis of truncated RNA ends reveals new insights into Ribosome Stalling in plants. Plant Cell. 2016;28:2398–416. Yu X, Willmann MR, Anderson SJ, Gregory BD. Genome-wide mapping of uncapped and cleaved transcripts reveals a role for the nuclear mrna cap-binding complex in cotranslational rna decay in arabidopsis. Plant Cell. 2016;28:2385–97. Matsui T, Takita E, Sato T, Kinjo S, Aizawa M, Sugiura Y, et al. N-glycosylation at noncanonical Asn-X-Cys sequences in plant cells. Glycobiology. 2011;21:994–9. Yamasaki S, Sanada Y, Imase R, Matsuura H, Ueno D, Demura T, et al. Arabidopsis thaliana cold-regulated 47 gene 5′-untranslated region enables stable high-level expression of transgenes. J Biosci Bioeng. 2018;125. Lei L, Shi J, Chen J, Zhang M, Sun S, Xie S, et al. Ribosome profiling reveals dynamic translational landscape in maize seedlings under drought stress. Plant J. 2015;84:1206–18. Yamasaki S, Matsuura H, Demura T, Kato K. Changes in polysome association of mRNA throughout growth and development in Arabidopsis thaliana. Plant Cell Physiol. 2015;56:2169–80. Gruber AR, Lorenz R, Bernhart SH, Neuböck R, Hofacker IL. The Vienna RNA websuite. Nucleic Acids Res. 2008;36 Web Server issue:70–4. Simms CL, Yan LL, Zaher HS. Ribosome collision is critical for quality control during no-go decay. Mol Cell. 2017;68:361–73. Zalucki YM, Power PM, Jennings MP. Selection for efficient translation initiation biases codon usage at second amino acid position in secretory proteins. Nucleic Acids Res. 2007;35:5748–54. Bivona L, Zou Z, Stutzman N, Sun PD. Influence of the second amino acid on recombinant protein expression. Protein Expr Purif. 2010;74:248–56. Barupal DK, Fiehn O. Machine learning in python. J Mach Learn Res. 2011;12:2825–30. Hasan MM, Manavalan B, Shoombuatong W, Khatun MS, Kurata H. i6mA-Fuse: improved and robust prediction of DNA 6 mA sites in the Rosaceae genome by fusing multiple feature representation. Plant Mol Biol. 2020;103:225–34. https://doi.org/10.1007/s11103-020-00988-y. Varoquaux G, Buitinck L, Louppe G, Grisel O, Pedregosa F, Mueller A. SCIKIT-LEARN: machine learning without learning the machinery machine. GetMobile Mob Comput Commun. 2015;19:29–33.