
Bioinformatics
SCOPUS (1999-2022)SCIE-ISI
1367-4803
1460-2059
Anh Quốc
Cơ quản chủ quản: OXFORD UNIV PRESS , Oxford University Press
Các bài báo tiêu biểu
Summary: The Sequence Alignment/Map (SAM) format is a generic alignment format for storing read alignments against reference sequences, supporting short and long reads (up to 128 Mbp) produced by different sequencing platforms. It is flexible in style, compact in size, efficient in random access and is the format in which alignments from the 1000 Genomes Project are released. SAMtools implements various utilities for post-processing alignments in the SAM format, such as indexing, variant caller and alignment viewer, and thus provides universal tools for processing read alignments.
Availability: http://samtools.sourceforge.net
Contact: [email protected]
Động lực: Mặc dù đã có nhiều công cụ xử lý dữ liệu đọc từ giải trình tự thế hệ mới (NGS), chúng tôi vẫn không tìm thấy công cụ nào hoặc sự kết hợp của các công cụ đáp ứng yêu cầu của chúng tôi về tính linh hoạt, khả năng xử lý chính xác dữ liệu cặp đầu và hiệu suất cao. Chúng tôi đã phát triển Trimmomatic như một công cụ xử lý dữ liệu đầu vào linh hoạt và hiệu quả hơn, có khả năng xử lý chính xác dữ liệu cặp đầu.
Kết quả: Giá trị của việc xử lý dữ liệu đọc NGS đã được chứng minh cả trong các tác vụ dựa trên tham chiếu và không dựa trên tham chiếu. Trimmomatic cho thấy sản phẩm đầu ra ít nhất là ngang bằng, và trong nhiều trường hợp còn vượt trội hơn, so với các công cụ khác trong tất cả các kịch bản đã được kiểm nghiệm.
Tính khả dụng và triển khai: Trimmomatic được cấp phép theo GPL V3. Công cụ này có thể chạy trên nhiều nền tảng (cần Java 1.5+) và có sẵn tại http://www.usadellab.org/cms/index.php?page=trimmomatic
Liên hệ: [email protected]
Thông tin bổ sung: Dữ liệu bổ sung có sẵn trực tuyến tại Bioinformatics.
Motivation: The enormous amount of short reads generated by the new DNA sequencing technologies call for the development of fast and accurate read alignment programs. A first generation of hash table-based methods has been developed, including MAQ, which is accurate, feature rich and fast enough to align short reads from a single individual. However, MAQ does not support gapped alignment for single-end reads, which makes it unsuitable for alignment of longer reads where indels may occur frequently. The speed of MAQ is also a concern when the alignment is scaled up to the resequencing of hundreds of individuals.
Results: We implemented Burrows-Wheeler Alignment tool (BWA), a new read alignment package that is based on backward search with Burrows–Wheeler Transform (BWT), to efficiently align short sequencing reads against a large reference sequence such as the human genome, allowing mismatches and gaps. BWA supports both base space reads, e.g. from Illumina sequencing machines, and color space reads from AB SOLiD machines. Evaluations on both simulated and real data suggest that BWA is ∼10–20× faster than MAQ, while achieving similar accuracy. In addition, BWA outputs alignment in the new standard SAM (Sequence Alignment/Map) format. Variant calling and other downstream analyses after the alignment can be achieved with the open source SAMtools software package.
Availability: http://maq.sourceforge.net
Contact: [email protected]
Motivation: Accurate alignment of high-throughput RNA-seq data is a challenging and yet unsolved problem because of the non-contiguous transcript structure, relatively short read lengths and constantly increasing throughput of the sequencing technologies. Currently available RNA-seq aligners suffer from high mapping error rates, low mapping speed, read length limitation and mapping biases.
Results: To align our large (>80 billon reads) ENCODE Transcriptome RNA-seq dataset, we developed the Spliced Transcripts Alignment to a Reference (STAR) software based on a previously undescribed RNA-seq alignment algorithm that uses sequential maximum mappable seed search in uncompressed suffix arrays followed by seed clustering and stitching procedure. STAR outperforms other aligners by a factor of >50 in mapping speed, aligning to the human genome 550 million 2 × 76 bp paired-end reads per hour on a modest 12-core server, while at the same time improving alignment sensitivity and precision. In addition to unbiased de novo detection of canonical junctions, STAR can discover non-canonical splices and chimeric (fusion) transcripts, and is also capable of mapping full-length RNA sequences. Using Roche 454 sequencing of reverse transcription polymerase chain reaction amplicons, we experimentally validated 1960 novel intergenic splice junctions with an 80–90% success rate, corroborating the high precision of the STAR mapping strategy.
Availability and implementation: STAR is implemented as a standalone C++ code. STAR is free open source software distributed under GPLv3 license and can be downloaded from http://code.google.com/p/rna-star/.
Contact: [email protected].
Tóm tắt: Dự kiến các công nghệ biểu hiện gen số (DGE) mới nổi sẽ vượt qua công nghệ chip vi thể trong tương lai gần cho nhiều ứng dụng trong gen học chức năng. Một trong những nhiệm vụ phân tích dữ liệu cơ bản, đặc biệt cho các nghiên cứu biểu hiện gen, liên quan đến việc xác định liệu có bằng chứng cho thấy sự khác biệt ở số lượng của một bản sao hoặc exon giữa các điều kiện thí nghiệm hay không. edgeR là một gói phần mềm Bioconductor dùng để kiểm tra sự biểu hiện khác biệt của dữ liệu đếm lặp lại. Một mô hình Poisson phân tán quá mức được sử dụng để tính đến cả tính biến thiên sinh học và kỹ thuật. Các phương pháp Bayes thực nghiệm được sử dụng để điều chỉnh mức độ phân tán quá mức giữa các bản sao, cải thiện độ tin cậy của suy diễn. Phương pháp này có thể được sử dụng ngay cả với các mức độ lặp lại tối thiểu, miễn là ít nhất một kiểu hình hoặc điều kiện thí nghiệm được lặp lại. Phần mềm này còn có thể có các ứng dụng khác ngoài dữ liệu giải trình tự, chẳng hạn như dữ liệu số lượng peptide proteome.
Khả năng truy cập: Gói này có sẵn miễn phí theo giấy phép LGPL từ trang web Bioconductor (http://bioconductor.org).
Liên lạc: [email protected]
Motivation: Phylogenies are increasingly used in all fields of medical and biological research. Moreover, because of the next-generation sequencing revolution, datasets used for conducting phylogenetic analyses grow at an unprecedented pace. RAxML (Randomized Axelerated Maximum Likelihood) is a popular program for phylogenetic analyses of large datasets under maximum likelihood. Since the last RAxML paper in 2006, it has been continuously maintained and extended to accommodate the increasingly growing input datasets and to serve the needs of the user community.
Results: I present some of the most notable new features and extensions of RAxML, such as a substantial extension of substitution models and supported data types, the introduction of SSE3, AVX and AVX2 vector intrinsics, techniques for reducing the memory requirements of the code and a plethora of operations for conducting post-analyses on sets of trees. In addition, an up-to-date 50-page user manual covering all new RAxML options is available.
Availability and implementation: The code is available under GNU GPL at https://github.com/stamatak/standard-RAxML.
Contact: [email protected]
Supplementary information: Supplementary data are available at Bioinformatics online.
Tóm lược: MrBayes 3 thực hiện phân tích phát sinh loài Bayesian kết hợp thông tin từ các phần dữ liệu hoặc các phân tập khác nhau tiến hóa dưới các mô hình tiến hóa ngẫu nhiên khác nhau. Điều này cho phép người dùng phân tích các tập dữ liệu không đồng nhất bao gồm các loại dữ liệu khác nhau—ví dụ: hình thái, nucleotide và protein—và khám phá nhiều loại mô hình cấu trúc kết hợp tham số duy nhất và chung của phần. Chương trình sử dụng MPI để song song hóa kết hợp Metropolis trên các cụm máy Macintosh hoặc UNIX.
Khả dụng: http://morphbank.ebc.uu.se/mrbayes
Liên hệ: [email protected]
* Địa chỉ thông tin liên lạc.
Summary: The Clustal W and Clustal X multiple sequence alignment programs have been completely rewritten in C++. This will facilitate the further development of the alignment algorithms in the future and has allowed proper porting of the programs to the latest versions of Linux, Macintosh and Windows operating systems.
Availability: The programs can be run on-line from the EBI web server: http://www.ebi.ac.uk/tools/clustalw2. The source code and executables for Windows, Linux and Macintosh computers are available from the EBI ftp site ftp://ftp.ebi.ac.uk/pub/software/clustalw2/
Contact: [email protected]
Motivation: Testing for correlations between different sets of genomic features is a fundamental task in genomics research. However, searching for overlaps between features with existing web-based methods is complicated by the massive datasets that are routinely produced with current sequencing technologies. Fast and flexible tools are therefore required to ask complex questions of these data in an efficient manner.
Results: This article introduces a new software suite for the comparison, manipulation and annotation of genomic features in Browser Extensible Data (BED) and General Feature Format (GFF) format. BEDTools also supports the comparison of sequence alignments in BAM format to both BED and GFF features. The tools are extremely efficient and allow the user to compare large datasets (e.g. next-generation sequencing data) with both public and custom genome annotation tracks. BEDTools can be combined with one another as well as with standard UNIX commands, thus facilitating routine genomics tasks as well as pipelines that can quickly answer intricate questions of large genomic datasets.
Availability and implementation: BEDTools was written in C++. Source code and a comprehensive user manual are freely available at http://code.google.com/p/bedtools
Contact: [email protected]; [email protected]
Supplementary information: Supplementary data are available at Bioinformatics online.
Tóm tắt: Chương trình MRBAYES thực hiện suy luận Bayes của phả hệ bằng cách sử dụng một biến thể của thuật toán Monte Carlo chuỗi Markov.
Khả dụng: MRBAYES, bao gồm mã nguồn, tài liệu, các tệp dữ liệu mẫu và một tệp thực thi, có sẵn tại http://brahms.biology.rochester.edu/software.html.
Liên hệ: [email protected]