TopHat: discovering splice junctions with RNA-SeqBioinformatics - Tập 25 Số 9 - Trang 1105-1111 - 2009
Cole Trapnell, Lior Pachter, Steven L. Salzberg
Abstract
Motivation: A new protocol for sequencing the messenger RNA in a cell, known as RNA-Seq, generates millions of short sequence fragments in a single run. These fragments, or ‘reads’, can be used to measure levels of gene expression and to identify novel splice variants of genes. However, current software for aligning RNA-Seq data to a genome ...... hiện toàn bộ
Trimmomatic: một công cụ cắt linh hoạt cho dữ liệu chuỗi Illumina Dịch bởi AI Bioinformatics - Tập 30 Số 15 - Trang 2114-2120 - 2014
Anthony Bolger, Marc Lohse, Björn Usadel
Tóm tắt
Động lực: Mặc dù đã có nhiều công cụ xử lý dữ liệu đọc từ giải trình tự thế hệ mới (NGS), chúng tôi vẫn không tìm thấy công cụ nào hoặc sự kết hợp của các công cụ đáp ứng yêu cầu của chúng tôi về tính linh hoạt, khả năng xử lý chính xác dữ liệu cặp đầu và hiệu suất cao. Chúng tôi đã phát triển Trimmomatic như một công cụ xử lý dữ liệu đầu vào...... hiện toàn bộ
GTDB-Tk: a toolkit to classify genomes with the Genome Taxonomy DatabaseBioinformatics - Tập 36 Số 6 - Trang 1925-1927 - 2020
Pierre-Alain Chaumeil, Aaron J. Mussig, Philip Hugenholtz, Donovan H. Parks
Abstract
Summary
The Genome Taxonomy Database Toolkit (GTDB-Tk) provides objective taxonomic assignments for bacterial and archaeal genomes based on the GTDB. GTDB-Tk is computationally efficient and able to classify thousands of draft genomes in parallel. Here we demonstrate the...... hiện toàn bộ
Cd-hit: a fast program for clustering and comparing large sets of protein or nucleotide sequencesBioinformatics - Tập 22 Số 13 - Trang 1658-1659 - 2006
Weizhong Li, Adam Godzik
Abstract
Motivation: In 2001 and 2002, we published two papers (Bioinformatics, 17, 282–283, Bioinformatics, 18, 77–82) describing an ultrafast protein sequence clustering program called cd-hit. This program can efficiently cluster a huge protein database with millions of sequences. However, the applications of the underlying algorithm are not limite...... hiện toàn bộ
UCHIME improves sensitivity and speed of chimera detectionBioinformatics - Tập 27 Số 16 - Trang 2194-2200 - 2011
Robert C. Edgar, Brian J. Haas, José C. Clemente, Christopher Quince, Rob Knight
Abstract
Motivation: Chimeric DNA sequences often form during polymerase chain reaction amplification, especially when sequencing single regions (e.g. 16S rRNA or fungal Internal Transcribed Spacer) to assess diversity or compare populations. Undetected chimeras may be misinterpreted as novel species, causing inflated estimates of diversity and spuri...... hiện toàn bộ
InterProScan 5: genome-scale protein function classificationBioinformatics - Tập 30 Số 9 - Trang 1236-1240 - 2014
Philip Jones, David Binns, Hsin-Yu Chang, Matthew Fraser, Weizhong Li, Craig McAnulla, Hamish McWilliam, John Maslen, Alex Mitchell, Gift Nuka, Sebastien Pesseat, A. F. Quinn, Amaia Sangrador‐Vegas, Maxim Scheremetjew, Siew-Yit Yong, Rodrigo López, Sarah Hunter
Abstract
Motivation: Robust large-scale sequence analysis is a major challenge in modern genomic science, where biologists are frequently trying to characterize many millions of sequences. Here, we describe a new Java-based architecture for the widely used protein function prediction software package InterProScan. Developments include improvements an...... hiện toàn bộ