featureCounts: một chương trình hiệu quả đa năng để phân bổ các đoạn chuỗi vào các đặc điểm gen

Bioinformatics (Oxford, England) - Tập 30 Số 7 - Trang 923-930 - 2014
Yang Liao1, Gordon K. Smyth1, Wei Shi1
11 Bioinformatics Division, The Walter and Eliza Hall Institute of Medical Research, 1G Royal Parade, Parkville, VIC 3052, 2Department of Computing and Information Systems and 3Department of Mathematics and Statistics, The University of Melbourne, Parkville, VIC 3010, Australia

Tóm tắt

Tóm tắt

Động lực: Các công nghệ giải trình tự thế hệ tiếp theo tạo ra hàng triệu đoạn chuỗi ngắn, thường được định sẵn vào một bộ gen tham chiếu. Trong nhiều ứng dụng, thông tin chính cần thiết để phân tích hạ nguồn là số lượng đoạn chuỗi ánh xạ tới mỗi đặc điểm gen, ví dụ như mỗi exon hoặc mỗi gen. Quá trình đếm các đoạn chuỗi được gọi là tóm tắt đoạn chuỗi. Tóm tắt đoạn chuỗi là cần thiết cho nhiều phân tích gen khác nhau nhưng đến nay vẫn chưa nhận được nhiều sự chú ý trong tài liệu khoa học.

Kết quả: Chúng tôi giới thiệu featureCounts, một chương trình tóm tắt đoạn chuỗi thích hợp cho việc đếm các đoạn chuỗi được tạo ra từ các thí nghiệm giải trình tự RNA hoặc DNA gen. featureCounts thực hiện các kỹ thuật băm nhiễm sắc thể và chặn đặc điểm rất hiệu quả. Nó nhanh hơn nhiều so với các phương pháp hiện có (nhanh hơn một bậc độ cho tóm tắt cấp độ gen) và yêu cầu ít bộ nhớ máy tính hơn. Nó hoạt động với cả đoạn chuỗi đơn lẻ hoặc đôi và cung cấp một loạt tùy chọn phù hợp cho các ứng dụng giải trình tự khác nhau.

Tình trạng sẵn có và thực thi: featureCounts có sẵn theo Giấy phép Công cộng GNU và là một phần của gói phần mềm Subread (http://subread.sourceforge.net) hoặc Rsubread (http://www.bioconductor.org).

Liên hệ: [email protected]

Từ khóa


Tài liệu tham khảo

Aboyoun, 2013, GenomicRanges: representation and manipulation of genomic intervals

Anders, 2013, HTSeq: analysing high-throughput sequencing data with Python

Anders, 2010, Differential expression analysis for sequence count data, Genome Biol., 11, R106, 10.1186/gb-2010-11-10-r106

Anders, 2012, Detecting differential usage of exons from RNA-seq data, Genome Res., 22, 2008, 10.1101/gr.133744.111

Anders, 2013, Count-based differential expression analysis of RNA sequencing data using R and Bioconductor, Nat. Protoc., 8, 1765, 10.1038/nprot.2013.099

Auer, 2011, A two-stage Poisson model for testing RNA-seq data, Statistical Applications in Genetics and Molecular Biology, 10, 1, 10.2202/1544-6115.1627

Bhattacharyya, 2013, Genome-wide hydroxymethylation tested using the help-gt assay shows redistribution in cancer, Nucleic Acids Res., 41, e157, 10.1093/nar/gkt601

Bradnam, 2013, Assemblathon 2: evaluating de novo methods of genome assembly in three vertebrate species, Gigascience, 2, 10, 10.1186/2047-217X-2-10

Brent Lab, 2013, GTF2.2: a Gene Annotation Format

Flicek, 2012, Ensembl 2012, Nucleic Acids Res., 40, D84, 10.1093/nar/gkr991

Fonseca, 2012, Tools for mapping high-throughput sequencing data, Bioinformatics, 28, 3169, 10.1093/bioinformatics/bts605

Gentleman, 2004, Bioconductor: open software development for computational biology and bioinformatics, Genome Biol., 5, R80, 10.1186/gb-2004-5-10-r80

Hardcastle, 2010, baySeq: Empirical Bayesian methods for identifying differential expression in sequence count data, BMC Bioinformatics, 11, 422, 10.1186/1471-2105-11-422

Harris, 2010, Comparison of sequencing-based methods to profile DNA methylation and identification of monoallelic epigenetic modifications, Nat. Biotechnol., 28, 1097, 10.1038/nbt.1682

Howard, 2013, De novo high-coverage sequencing and annotated assemblies of the Budgerigar genome, GigaScience Database, 10.5524/100059

Kent, 2002, The human genome browser at UCSC, Genome Res., 12, 996, 10.1101/gr.229102

Langmead, 2009, Ultrafast and memory-efficient alignment of short DNA sequences to the human genome, Genome Biol., 10, 10.1186/gb-2009-10-3-r25

Law, 2013, Voom! precision weights unlock linear model analysis tools for RNA-seq read counts

Li, 2011, RSEM: accurate transcript quantification from RNA-Seq data with or without a reference genome, BMC Bioinformatics, 12, 323, 10.1186/1471-2105-12-323

Li, 2009, Fast and accurate short read alignment with Burrows–Wheeler transform, Bioinformatics, 25, 1754, 10.1093/bioinformatics/btp324

Li, 2009, The sequence alignment/map format and SAMtools, Bioinformatics, 25, 2078, 10.1093/bioinformatics/btp352

Li, 2012, Normalization, testing, and false discovery rate estimation for RNA-sequencing data, Biostatistics, 13, 523, 10.1093/biostatistics/kxr031

Liao, 2013, The Subread package: a toolkit for processing next-gen sequencing data

Liao, 2013, The Subread aligner: fast, accurate and scalable read mapping by seed-and-vote, Nucleic Acids Res., 41, e108, 10.1093/nar/gkt214

Man, 2013, The transcription factor IRF4 is essential for TCR affinity-mediated metabolic programming and clonal expansion of T cells, Nat. Immunol., 14, 1155, 10.1038/ni.2710

Marco-Sola, 2012, The GEM mapper: fast, accurate and versatile alignment by filtration, Nat. Methods, 9, 1185, 10.1038/nmeth.2221

McCarthy, 2012, Differential expression analysis of multifactor RNA-Seq experiments with respect to biological variation, Nucleic Acids Res., 40, 4288, 10.1093/nar/gks042

Metzker, 2009, Sequencing technologiesthe next generation, Nature Rev. Genet., 11, 31, 10.1038/nrg2626

Nookaew, 2012, A comprehensive comparison of RNA-Seq-based transcriptome analysis from reads to differential gene expression and cross-comparison with microarrays: a case study in Saccharomyces cerevisiae, Nucleic Acids Res., 40, 10084, 10.1093/nar/gks804

Oshlack, 2010, From RNA-seq reads to differential expression results, Genome Biol., 11, 220, 10.1186/gb-2010-11-12-220

Pages, 2013, IRanges: infrastructure for manipulating intervals on sequences

Pal, 2013, Global changes in the mammary epigenome are induced by hormonal cues and coordinated by Ezh2, Cell Rep., 3, 411, 10.1016/j.celrep.2012.12.020

Park, 2009, Chip–seq: advantages and challenges of a maturing technology, Nat. Rev. Genet., 10, 669, 10.1038/nrg2641

Pruitt, 2012, NCBI Reference Sequences (RefSeq): current status, new features and genome annotation policy, Nucleic Acids Res., 40, D130, 10.1093/nar/gkr1079

Quinlan, 2010, BEDTools: a flexible suite of utilities for comparing genomic features, Bioinformatics, 26, 841, 10.1093/bioinformatics/btq033

Rapaport, 2013, Comprehensive evaluation of differential gene expression analysis methods for Rna-seq data, Genome Biol., 14, R95, 10.1186/gb-2013-14-9-r95

Reyes, 2013, Drift and conservation of differential exon usage across tissues in primate species, Proc. Natl Acad. Sci. USA, 110, 15377, 10.1073/pnas.1307202110

Robinson, 2010, edgeR: a Bioconductor package for differential expression analysis of digital gene expression data, Bioinformatics, 26, 139, 10.1093/bioinformatics/btp616

Ross-Innes, 2012, Differential oestrogen receptor binding is associated with clinical outcome in breast cancer, Nature, 481, 389, 10.1038/nature10730

Schuster, 2008, Next-generation sequencing transforms today’s biology, Nat. Methods, 5, 16, 10.1038/nmeth1156

Shi, 2013, Rsubread: an R package for the alignment, summarization and analyses of next-generation sequencing data

Shi, 2013, Subread/Rsubread Users Guide

Shi, 2006, The microarray quality control (MAQC) project shows inter-and intraplatform reproducibility of gene expression measurements, Nat. Biotechnol., 24, 1151, 10.1038/nbt1239

Trapnell, 2009, TopHat: discovering splice junctions with RNA-seq, Bioinformatics, 25, 1105, 10.1093/bioinformatics/btp120

Trapnell, 2010, Transcript assembly and quantification by RNA-seq reveals unannotated transcripts and isoform switching during cell differentiation, Nat. Biotechnol., 28, 511, 10.1038/nbt.1621

Valouev, 2008, Genome-wide analysis of transcription factor binding sites based on chip-seq data, Nat. Methods, 5, 829, 10.1038/nmeth.1246

Wellcome Trust Sanger Institute, 2013, GFF (General Feature Format) specifications document

Wu, 2013, A new shrinkage estimator for dispersion improves differential expression detection in RNA-seq data, Biostatistics, 14, 232, 10.1093/biostatistics/kxs033

Zhang, 2008, Model-based analysis of ChIP-Seq (MACS), Genome Biol, 9, R137, 10.1186/gb-2008-9-9-r137