Phân tích khác biệt cho RNA-seq: ước lượng cấp độ phiên mã cải thiện suy diễn cấp độ gen

F1000Research - Tập 4 - Trang 1521
Charlotte Soneson1,2, Michael I. Love3,4, Mark D. Robinson1,2
1Institute for Molecular Life Sciences, University of Zurich, Zurich, 8057
2SIB Swiss Institute of Bioinformatics, University of Zurich, Zurich, 8057
3Department of Biostatistics and Computational Biology, Dana-Farber Cancer Institute, Boston, MA, 02210
4Department of Biostatistics, Harvard TH Chan School of Public Health, Boston, MA, 02115

Tóm tắt

Phân tích RNA-seq trong các nghiên cứu transcriptome được sử dụng rộng rãi để đặc trưng hóa bản sao của tế bào. Nhiều nghiên cứu transcriptomic nhằm mục đích so sánh các mức độ phong phú hoặc thành phần transcriptome giữa các điều kiện nhất định, và bước đầu tiên là sử dụng các đọc sequencer như cơ sở cho việc đo lường độ phong phú của các đặc điểm transcriptome có liên quan, chẳng hạn như gen hoặc bản sao. Nhiều phương pháp đo lường khác nhau đã được đề xuất, từ việc đơn giản là đếm các đọc trùng lặp với các vùng gen cụ thể đến ước lượng phức tạp hơn về độ phong phú dưới nền tảng của các transcript. Trong bài báo này, chúng tôi cho thấy rằng các ước lượng độ phong phú cấp độ gen và suy diễn thống kê mang lại lợi thế so với phân tích cấp độ transcript, xét về hiệu suất và khả năng giải thích. Chúng tôi cũng minh họa rằng trong khi sự hiện diện của việc sử dụng isoform khác nhau có thể dẫn đến tỷ lệ phát hiện giả dương phóng đại trong các phân tích biểu hiện khác biệt trên các ma trận đếm đơn giản và ước lượng độ phong phú cấp độ transcript cải thiện hiệu suất trong dữ liệu mô phỏng, sự khác biệt tương đối không đáng kể trong một số bộ dữ liệu thực tế. Cuối cùng, chúng tôi cung cấp một gói R (tximport) để giúp người dùng tích hợp các ước lượng độ phong phú cấp độ transcript từ các quy trình đo lường phổ biến vào các động cơ suy diễn thống kê dựa trên đếm.

Từ khóa


Tài liệu tham khảo

Y Liao, 2014, featureCounts: an efficient general purpose program for assigning sequence reads to genomic features., Bioinformatics., 30, 923-30, 10.1093/bioinformatics/btt656

S Anders, 2015, HTSeq - a Python framework to work with high-throughput sequencing data., Bioinformatics., 31, 166-169, 10.1093/bioinformatics/btu638

C Trapnell, 2012, Differential gene and transcript expression analysis of RNA-seq experiments with TopHat and Cufflinks., Nat Protoc., 7, 562-78, 10.1038/nprot.2012.016

B Li, 2011, RSEM: accurate transcript quantification from RNA-Seq data with or without a reference genome., BMC Bioinformatics., 12, 323, 10.1186/1471-2105-12-323

P Glaus, 2012, Identifying differentially expressed transcripts from RNA-seq data with biological variation., Bioinformatics., 28, 1721-1728, 10.1093/bioinformatics/bts260

N Bray, 2015, Near-optimal RNA-Seq quantification., arXiv:1505.02710.

R Patro, 2015, Accurate, fast, and model-aware transcript expression quantification with Salmon., bioRxiv., 10.1101/021592

A Mortazavi, 2008, Mapping and quantifying mammalian transcriptomes by RNA-Seq., Nat Methods., 5, 621-628, 10.1038/nmeth.1226

C Trapnell, 2010, Transcript assembly and quantification by RNA-Seq reveals unannotated transcripts and isoform switching during cell differentiation., Nat Biotechnol., 28, 511-515, 10.1038/nbt.1621

G Wagner, 2012, Measurement of mRNA abundance using RNA-seq data: RPKM measure is inconsistent among samples., Theory Biosci., 131, 281-285, 10.1007/s12064-012-0162-3

M Love, 2014, Moderated estimation of fold change and dispersion for RNA-seq data with DESeq2., Genome Biol., 15, 550, 10.1186/s13059-014-0550-8

M Robinson, 2010, edgeR: a Bioconductor package for differential expression analysis of digital gene expression data., Bioinformatics., 26, 139-40, 10.1093/bioinformatics/btp616

M Ritchie, 2015, limma powers differential expression analyses for RNA-sequencing and microarray studies., Nucleic Acids Res., 43, e47, 10.1093/nar/gkv007

D Bottomly, 2011, Evaluating gene expression in C57BL/6J and DBA/2J mouse striatum using RNA-Seq and microarrays., PLoS One., 6, e17820, 10.1371/journal.pone.0017820

S Yang, 2015, Common and specific downstream signaling targets controlled by Tlr2 and Tlr5 innate immune signaling in zebrafish., BMC Genomics., 16, 547, 10.1186/s12864-015-1740-9

A Currais, 2015, A comprehensive multiomics approach toward understanding the relationship between aging and dementia., Aging (Albany. NY)., 7, 937-955

A Chang, 2015, Oxygen regulation of breathing through an olfactory receptor activated by lactate., Nature., 527, 240-244, 10.1038/nature15721

C Soneson, 2015, Differential transcript usage from RNA-seq data: isoform pre-filtering improves performance of count-based methods., bioRxiv., 10.1101/025387

A Kanitz, 2015, Comparative assessment of methods for the computational inference of transcript isoform abundance from RNA-seq data., Genome Biol., 16, 150, 10.1186/s13059-015-0702-5

C Robert, 2015, Errors in RNA-Seq quantification affect genes of relevance to human disease., Genome Biol., 16, 177, 10.1186/s13059-015-0734-x

S Anders, 2012, Detecting differential usage of exons from RNA-seq data., Genome Res., 22, 2008-17, 10.1101/gr.133744.111

M Lawrence, 2013, Software for computing and annotating genomic ranges., PLoS Comput Biol., 9, e1003118, 10.1371/journal.pcbi.1003118

C Trapnell, 2013, Differential analysis of gene regulation at transcript resolution with RNA-seq., Nat Biotechnol., 31, 46-53, 10.1038/nbt.2450

S Zhao, 2015, Union Exon Based Approach for RNA-Seq Gene Quantification: To Be or Not to Be?, PLoS One., 10, e0141910, 10.1371/journal.pone.0141910

M Gonzàlez-Porta, 2013, Transcriptome analysis of human tissues and cell lines reveals one dominant transcript per gene., Genome Biol., 14, R70, 10.1186/gb-2013-14-7-r70

E Antonarakis, 2014, AR-V7 and resistance to enzalutamide and abiraterone in prostate cancer., N Engl J Med., 371, 1028-38, 10.1056/NEJMoa1315815

M Love, 2015, Modeling of RNA-seq fragment sequence bias reduces systematic errors in transcript abundance estimation., bioRxiv., 10.1101/025767

C Soneson, 2015, Data set 1 in: Differential analyses for RNA-seq: transcript-level estimates improve gene-level inferences., F1000Research., 10.5256/f1000research.7563.d109328

C Soneson, 2015, Data set 2 in: Differential analyses for RNA-seq: transcript-level estimates improve gene-level inferences., F1000Research., 10.5256/f1000research.7563.d109329

C Soneson, 2015, Data set 3 in: Differential analyses for RNA-seq: transcript-level estimates improve gene-level inferences., F1000Research., 10.5256/f1000research.7563.d109330

C Soneson, 2015, Data set 4 in: Differential analyses for RNA-seq: transcript-level estimates improve gene-level inferences., F1000Research., 10.5256/f1000research.7563.d109331

C Soneson, 2015, Data set 5 in: Differential analyses for RNA-seq: transcript-level estimates improve gene-level inferences., F1000Research., 10.5256/f1000research.7563.d109332

C Soneson, 2015, Data set 6 in: Differential analyses for RNA-seq: transcript-level estimates improve gene-level inferences., F1000Research., 10.5256/f1000research.7563.d109333