Phân tích và so sánh toàn diện giữa phương pháp giải trình tự RNA dựa trên PacBio và công nghệ nanopore đối với transcriptome của Arabidopsis

Plant Methods - Tập 16 - Trang 1-13 - 2020
Jiawen Cui1, Nan shen1, Zhaogeng Lu1, Guolu Xu2, Yuyao Wang2, Biao Jin1
1College of Horticulture and Plant Protection, Yangzhou University, Yangzhou, China
2Biomarker Technologies Corporation, Beijing, China

Tóm tắt

Số lượng các nghiên cứu sử dụng công nghệ giải trình tự thế hệ thứ ba, bao gồm Pacific Biosciences (PacBio) và Oxford Nanopore Technologies (ONT) đang gia tăng nhanh chóng trong nhiều lĩnh vực nghiên cứu khác nhau. Trong số đó, các nghiên cứu về transcriptome full-length single-molecule của thực vật chủ yếu sử dụng giải trình tự PacBio, trong khi ONT thì hiếm khi được sử dụng. Do đó, trong nghiên cứu này, chúng tôi đã xem xét các phương pháp giải trình tự RNA của ONT trên thực vật. Chúng tôi đã thực hiện một đánh giá chi tiết các đọc từ giải trình tự PacBio, cDNA trực tiếp Nanopore (ONT Dc) và cDNA PCR Nanopore (ONT Pc), bao gồm các đặc điểm của dữ liệu thô và xác định các transcript. Ngoài ra, dữ liệu Illumina khớp cũng được tạo ra để so sánh. ONT Pc cho thấy chất lượng dữ liệu thô tổng thể tốt hơn, trong khi PacBio tạo ra chiều dài đọc dài hơn. Trong phân tích transcriptome, PacBio và ONT Pc thực hiện tương tự nhau trong việc xác định transcript, phân tích chuỗi lặp đơn giản, và dự đoán RNA không mã hóa dài. PacBio vượt trội trong việc xác định sự kiện cắt nối thay thế, trong khi ONT Pc có thể ước lượng mức độ biểu hiện transcript. Bài báo này đã thực hiện một so sánh toàn diện giữa giải trình tự RNA dựa trên PacBio và công nghệ nanopore đối với transcriptome của Arabidopsis, kết quả cho thấy ONT Pc hiệu quả về chi phí hơn trong việc tạo ra các đọc cực dài và có thể đặc trưng hóa transcriptome cũng như định lượng mức độ biểu hiện của transcript. Do đó, ONT Pc là một phương pháp mới hiệu quả về chi phí và đáng giá cho việc phân tích transcriptome single-molecule full-length trên thực vật.

Từ khóa

#giải trình tự RNA #PacBio #công nghệ nanopore #transcriptome #Arabidopsis

Tài liệu tham khảo

Rhoads A, Au KF. PacBio sequencing and its applications. Genom Proteome Bioinf. 2015;13(5):278–89. Bayega A, Fahiminiya S, Oikonomopoulos S, Ragoussis J. Current and future methods for mRNA analysis: a drive toward single molecule sequencing//gene expression analysis. New York: Humana Press; 2018. p. 209–41. Gonzalez-Garay ML. Introduction to isoform sequencing using pacific biosciences technology (Iso-Seq)//Transcriptomics and Gene Regulation. Dordrecht: Springer; 2016. p. 141–60. Abdel-Ghany SE, Hamilton M, Jacobi JL, Ngam P, Devitt N, Schilkey F, Ben-Hur A, Reddy ASN. A survey of the sorghum transcriptome using single-molecule long reads. Nat Commun. 2016;7:11706. Wang T, Wang H, Cai D, Gao Y, Zhang H, Wang Y, Lin C, Ma L, Gu L. Comprehensive profiling of rhizome-associated alternative splicing and alternative polyadenylation in moso bamboo (Phyllostachys edulis). Plant J. 2017;91(4):684–99. Li S, Yamada M, Han X, Ohler U, Benfey PN. High-resolution expression map of the Arabidopsis root reveals alternative splicing and lincRNA regulation. Dev Cell. 2016;39(4):508–22. Sharon D, Tilgner H, Grubert F, Snyder M. A single-molecule long-read survey of the human transcriptome. Nat Biotechnol. 2013;31(11):1009. Thomas S, Underwood JG, Tseng E, Holloway AK. Long-read sequencing of chicken transcripts and identification of new transcript isoforms. PLoS ONE. 2014;9(4):e94650. Wang B, Tseng E, Regulski M, Clark TA, Hon T, Jiao Y, Lu Z, Olson A, Stein JC, Ware D. Unveiling the complexity of the maize transcriptome by single-molecule long-read sequencing. Nat Commun. 2016;7:11708. Jain M, Koren S, Miga KH, Quick J, Rand A, Sasani TA, Tyson JR, Beggs AD, et al. Nanopore sequencing and assembly of a human genome with ultra-long reads. Nat Biotech. 2018;36(4):338. Michael TP, Jupe F, Bemm F, Motley ST, Sandoval JP, Lanz C, Loudet O, Weigel D, Ecker JR. High contiguity Arabidopsis thaliana genome assembly with a single nanopore flow cell. Nat Commun. 2018;9(1):541. Schmidt MHW, Vogel A, Denton AK, Istace B, Wormit A, Geest H, Bolger ME, Alseekh S, Maß J, Pfaff C, Schurr U, Chetelat R, Maumus F, Aury JM, Koren S, Fernie AR, Zamir D, Bolger AM, Usadel B. De novo assembly of a new Solanum pennellii accession using nanopore sequencing. Plant Cell. 2017;29(10):2336–48. Treutlein B, Gokce O, Quake SR, Südhof TC. Cartography of neurexin alternative splicing mapped by single-molecule long-read mRNA sequencing. P Natl Acad Sci. 2014;111(13):E1291–9. Byrne A, Beaudin AE, Olsen HE, Jain M, Cole C, Palmer T, DuBois RM, Forsberg EC, Akeson M, Vollmers C. Nanopore long-read RNAseq reveals widespread transcriptional variation among the surface receptors of individual B cells. Nat Commun. 2017;8:16027. Weirather JL, de Cesare M, Wang Y, Piazza P, Sebastiano V, Wang XJ, Buck D, Au K. Comprehensive comparison of Pacific Biosciences and Oxford Nanopore Technologies and their applications to transcriptome analysis. F100Res. 2017;6:100. Wang Z, Zhang H, Gong W. Genome-wide identification and comparative analysis of alternative splicing across four legume species. Planta. 2019;249(4):1133–42. Laurent GS, Wahlestedt C, Kapranov P. The Landscape of long noncoding RNA classification. Trends Genet. 2015;31(5):239–51. Liu J, Wang H, Chua NH. Long noncoding RNA transcriptome of plants. Plant Biotechnol J. 2015;13(3):319–28. Chao Q, Gao ZF, Zhang D, Zhao BG, Dong FQ, Fu C, Liu L, Wang B. The developmental dynamics of the Populus stem transcriptome. Plant Biotechnol J. 2019;17(1):206–19. Chao Y, Yuan J, Li S, Jia S, Han S, Xu L. Analysis of transcripts and splice isoforms in red clover (Trifolium pratense L.) by single-molecule long-read sequencing. BMC Plant Biol. 2018;18(1):300. Seki M, Katsumata E, Suzuki A, Sereewattanawoot S, Sakamoto Y, Mizushima-Sugano J, Sugano S, Kohno T, Frith MC, Tsuchihara K. Evaluation and application of RNA-Seq by MinION. DNA Res. 2018;26(1):55–65. Jin B, Wang L, Wang J, Jiang KZ, Wang Y, Jiao XX, Ni CY, Wang YL, Teng NJ. The effect of experimental warming on leaf functional traits, leaf structure and leaf biochemistry in Arabidopsis thaliana. BMC Plant Biol. 2011;11(1):35. Kong L, Zhang Y, Ye ZQ, Liu XQ, Zhao SQ, Wei L, Gao G. CPC: assess the protein-coding potential of transcripts using sequence features and support vector machine. Nucleic Acids Res. 2007;36:W345–9. Sun L, Luo HT, Bu DC, Zhao GG, Yu KT, Zhang CG, Liu YN, Chen RS, Zhao Y. Utilizing sequence intrinsic composition to classify protein-coding and long non-coding transcripts. Nucleic Acids Res. 2013;17:e166. Wang L, Park HJ, Dasari S, Wang S, Kocher JP, Li W. CPAT: coding-Potential Assessment Tool using an alignment-free logistic regression model. Nucleic Acids Res. 2013;41:e74. Finn RD, Bateman A, Clements J, Coggill P, Eberhardt RY, Eddy SR, Heger A, Hetherington K, Holm L, Mistry J, Sonnhammer EL, Tate J, Punta M. Pfam: the protein families database. Nucleic Acids Res. 2014;42:D222–30. Pertea M, Kim D, Pertea GM, Leek JT, Salzberg SL. Transcript-level expression analysis of RNA-seq experiments with HISAT. StringTie and Ballgown. Nat Protoc. 2016;11(9):1650–67. Zhou X, Lindsay H, Robinson MD. Robustly detecting differential expression in RNA sequencing data using observation weights. Nucleic Acids Res. 2014;42(11):e91.