featureCounts: một chương trình hiệu quả đa năng để phân bổ các đoạn chuỗi vào các đặc điểm gen
Tóm tắt
Động lực: Các công nghệ giải trình tự thế hệ tiếp theo tạo ra hàng triệu đoạn chuỗi ngắn, thường được định sẵn vào một bộ gen tham chiếu. Trong nhiều ứng dụng, thông tin chính cần thiết để phân tích hạ nguồn là số lượng đoạn chuỗi ánh xạ tới mỗi đặc điểm gen, ví dụ như mỗi exon hoặc mỗi gen. Quá trình đếm các đoạn chuỗi được gọi là tóm tắt đoạn chuỗi. Tóm tắt đoạn chuỗi là cần thiết cho nhiều phân tích gen khác nhau nhưng đến nay vẫn chưa nhận được nhiều sự chú ý trong tài liệu khoa học.
Kết quả: Chúng tôi giới thiệu featureCounts, một chương trình tóm tắt đoạn chuỗi thích hợp cho việc đếm các đoạn chuỗi được tạo ra từ các thí nghiệm giải trình tự RNA hoặc DNA gen. featureCounts thực hiện các kỹ thuật băm nhiễm sắc thể và chặn đặc điểm rất hiệu quả. Nó nhanh hơn nhiều so với các phương pháp hiện có (nhanh hơn một bậc độ cho tóm tắt cấp độ gen) và yêu cầu ít bộ nhớ máy tính hơn. Nó hoạt động với cả đoạn chuỗi đơn lẻ hoặc đôi và cung cấp một loạt tùy chọn phù hợp cho các ứng dụng giải trình tự khác nhau.
Tình trạng sẵn có và thực thi: featureCounts có sẵn theo Giấy phép Công cộng GNU và là một phần của gói phần mềm Subread (http://subread.sourceforge.net) hoặc Rsubread (http://www.bioconductor.org).
Liên hệ: [email protected]
Từ khóa
Tài liệu tham khảo
Aboyoun, 2013, GenomicRanges: representation and manipulation of genomic intervals
Anders, 2013, HTSeq: analysing high-throughput sequencing data with Python
Anders, 2010, Differential expression analysis for sequence count data, Genome Biol., 11, R106, 10.1186/gb-2010-11-10-r106
Anders, 2012, Detecting differential usage of exons from RNA-seq data, Genome Res., 22, 2008, 10.1101/gr.133744.111
Anders, 2013, Count-based differential expression analysis of RNA sequencing data using R and Bioconductor, Nat. Protoc., 8, 1765, 10.1038/nprot.2013.099
Auer, 2011, A two-stage Poisson model for testing RNA-seq data, Statistical Applications in Genetics and Molecular Biology, 10, 1, 10.2202/1544-6115.1627
Bhattacharyya, 2013, Genome-wide hydroxymethylation tested using the help-gt assay shows redistribution in cancer, Nucleic Acids Res., 41, e157, 10.1093/nar/gkt601
Bradnam, 2013, Assemblathon 2: evaluating de novo methods of genome assembly in three vertebrate species, Gigascience, 2, 10, 10.1186/2047-217X-2-10
Brent Lab, 2013, GTF2.2: a Gene Annotation Format
Fonseca, 2012, Tools for mapping high-throughput sequencing data, Bioinformatics, 28, 3169, 10.1093/bioinformatics/bts605
Gentleman, 2004, Bioconductor: open software development for computational biology and bioinformatics, Genome Biol., 5, R80, 10.1186/gb-2004-5-10-r80
Hardcastle, 2010, baySeq: Empirical Bayesian methods for identifying differential expression in sequence count data, BMC Bioinformatics, 11, 422, 10.1186/1471-2105-11-422
Harris, 2010, Comparison of sequencing-based methods to profile DNA methylation and identification of monoallelic epigenetic modifications, Nat. Biotechnol., 28, 1097, 10.1038/nbt.1682
Howard, 2013, De novo high-coverage sequencing and annotated assemblies of the Budgerigar genome, GigaScience Database, 10.5524/100059
Langmead, 2009, Ultrafast and memory-efficient alignment of short DNA sequences to the human genome, Genome Biol., 10, 10.1186/gb-2009-10-3-r25
Law, 2013, Voom! precision weights unlock linear model analysis tools for RNA-seq read counts
Li, 2011, RSEM: accurate transcript quantification from RNA-Seq data with or without a reference genome, BMC Bioinformatics, 12, 323, 10.1186/1471-2105-12-323
Li, 2009, Fast and accurate short read alignment with Burrows–Wheeler transform, Bioinformatics, 25, 1754, 10.1093/bioinformatics/btp324
Li, 2009, The sequence alignment/map format and SAMtools, Bioinformatics, 25, 2078, 10.1093/bioinformatics/btp352
Li, 2012, Normalization, testing, and false discovery rate estimation for RNA-sequencing data, Biostatistics, 13, 523, 10.1093/biostatistics/kxr031
Liao, 2013, The Subread package: a toolkit for processing next-gen sequencing data
Liao, 2013, The Subread aligner: fast, accurate and scalable read mapping by seed-and-vote, Nucleic Acids Res., 41, e108, 10.1093/nar/gkt214
Man, 2013, The transcription factor IRF4 is essential for TCR affinity-mediated metabolic programming and clonal expansion of T cells, Nat. Immunol., 14, 1155, 10.1038/ni.2710
Marco-Sola, 2012, The GEM mapper: fast, accurate and versatile alignment by filtration, Nat. Methods, 9, 1185, 10.1038/nmeth.2221
McCarthy, 2012, Differential expression analysis of multifactor RNA-Seq experiments with respect to biological variation, Nucleic Acids Res., 40, 4288, 10.1093/nar/gks042
Metzker, 2009, Sequencing technologiesthe next generation, Nature Rev. Genet., 11, 31, 10.1038/nrg2626
Nookaew, 2012, A comprehensive comparison of RNA-Seq-based transcriptome analysis from reads to differential gene expression and cross-comparison with microarrays: a case study in Saccharomyces cerevisiae, Nucleic Acids Res., 40, 10084, 10.1093/nar/gks804
Oshlack, 2010, From RNA-seq reads to differential expression results, Genome Biol., 11, 220, 10.1186/gb-2010-11-12-220
Pages, 2013, IRanges: infrastructure for manipulating intervals on sequences
Pal, 2013, Global changes in the mammary epigenome are induced by hormonal cues and coordinated by Ezh2, Cell Rep., 3, 411, 10.1016/j.celrep.2012.12.020
Park, 2009, Chip–seq: advantages and challenges of a maturing technology, Nat. Rev. Genet., 10, 669, 10.1038/nrg2641
Pruitt, 2012, NCBI Reference Sequences (RefSeq): current status, new features and genome annotation policy, Nucleic Acids Res., 40, D130, 10.1093/nar/gkr1079
Quinlan, 2010, BEDTools: a flexible suite of utilities for comparing genomic features, Bioinformatics, 26, 841, 10.1093/bioinformatics/btq033
Rapaport, 2013, Comprehensive evaluation of differential gene expression analysis methods for Rna-seq data, Genome Biol., 14, R95, 10.1186/gb-2013-14-9-r95
Reyes, 2013, Drift and conservation of differential exon usage across tissues in primate species, Proc. Natl Acad. Sci. USA, 110, 15377, 10.1073/pnas.1307202110
Robinson, 2010, edgeR: a Bioconductor package for differential expression analysis of digital gene expression data, Bioinformatics, 26, 139, 10.1093/bioinformatics/btp616
Ross-Innes, 2012, Differential oestrogen receptor binding is associated with clinical outcome in breast cancer, Nature, 481, 389, 10.1038/nature10730
Schuster, 2008, Next-generation sequencing transforms today’s biology, Nat. Methods, 5, 16, 10.1038/nmeth1156
Shi, 2013, Rsubread: an R package for the alignment, summarization and analyses of next-generation sequencing data
Shi, 2013, Subread/Rsubread Users Guide
Shi, 2006, The microarray quality control (MAQC) project shows inter-and intraplatform reproducibility of gene expression measurements, Nat. Biotechnol., 24, 1151, 10.1038/nbt1239
Trapnell, 2009, TopHat: discovering splice junctions with RNA-seq, Bioinformatics, 25, 1105, 10.1093/bioinformatics/btp120
Trapnell, 2010, Transcript assembly and quantification by RNA-seq reveals unannotated transcripts and isoform switching during cell differentiation, Nat. Biotechnol., 28, 511, 10.1038/nbt.1621
Valouev, 2008, Genome-wide analysis of transcription factor binding sites based on chip-seq data, Nat. Methods, 5, 829, 10.1038/nmeth.1246
Wellcome Trust Sanger Institute, 2013, GFF (General Feature Format) specifications document
Wu, 2013, A new shrinkage estimator for dispersion improves differential expression detection in RNA-seq data, Biostatistics, 14, 232, 10.1093/biostatistics/kxs033