Genome Research

  1549-5469

  1088-9051

  Mỹ

Cơ quản chủ quản:  COLD SPRING HARBOR LAB PRESS, PUBLICATIONS DEPT , Cold Spring Harbor Laboratory Press

Lĩnh vực:
Genetics (clinical)Genetics

Các bài báo tiêu biểu

Cytoscape: A Software Environment for Integrated Models of Biomolecular Interaction Networks
Tập 13 Số 11 - Trang 2498-2504 - 2003
Paul Shannon, Andrew Markiel, Owen Ozier, Nitin S. Baliga, Jonathan T. Wang, Daniel Ramage, Nada Amin, Benno Schwikowski, Trey Ideker

Cytoscape is an open source software project for integrating biomolecular interaction networks with high-throughput expression data and other molecular states into a unified conceptual framework. Although applicable to any system of molecular components and interactions, Cytoscape is most powerful when used in conjunction with large databases of protein-protein, protein-DNA, and genetic interactions that are increasingly available for humans and model organisms. Cytoscape's software Core provides basic functionality to layout and query the network; to visually integrate the network with expression profiles, phenotypes, and other molecular states; and to link the network to databases of functional annotations. The Core is extensible through a straightforward plug-in architecture, allowing rapid development of additional computational analyses and features. Several case studies of Cytoscape plug-ins are surveyed, including a search for interaction pathways correlating with changes in gene expression, a study of protein complexes involved in cellular recovery to DNA damage, inference of a combined physical/functional interaction network for Halobacterium, and an interface to detailed stochastic/kinetic gene regulatory models.

Bộ công cụ phân tích bộ gen: Một khung MapReduce cho việc phân tích dữ liệu giải trình tự DNA thế hệ tiếp theo Dịch bởi AI
Tập 20 Số 9 - Trang 1297-1303 - 2010
Aaron McKenna, Matthew G. Hanna, Eric Banks, Andrey Sivachenko, Kristian Cibulskis, Andrew Kernytsky, Kiran Garimella, David Green, Stacey Gabriel, Mark J. Daly, Mark A. DePristo

Các dự án giải trình tự DNA thế hệ tiếp theo (NGS), chẳng hạn như Dự án Bộ Gen 1000, đã và đang cách mạng hóa sự hiểu biết của chúng ta về sự biến dị di truyền giữa các cá nhân. Tuy nhiên, các tập dữ liệu khổng lồ được tạo ra bởi NGS—chỉ riêng dự án thí điểm Bộ Gen 1000 đã bao gồm gần năm terabase—làm cho việc viết các công cụ phân tích giàu tính năng, hiệu quả và đáng tin cậy trở nên khó khăn ngay cả đối với những cá nhân có kiến thức tính toán phức tạp. Thực tế, nhiều chuyên gia gặp phải giới hạn về quy mô và sự dễ dàng trong việc trả lời các câu hỏi khoa học bởi sự phức tạp trong việc truy cập và xử lý dữ liệu do những máy này tạo ra. Trong bài báo này, chúng tôi thảo luận về Bộ công cụ Phân tích Bộ Gen (GATK) của chúng tôi, một khung lập trình có cấu trúc được thiết kế để tạo điều kiện thuận lợi cho sự phát triển của các công cụ phân tích hiệu quả và đáng tin cậy dành cho các máy giải trình tự DNA thế hệ tiếp theo sử dụng triết lý lập trình hàm MapReduce. GATK cung cấp một bộ mẫu truy cập dữ liệu nhỏ nhưng phong phú, bao trùm hầu hết các nhu cầu của công cụ phân tích. Việc tách biệt các tính toán phân tích cụ thể khỏi hạ tầng quản lý dữ liệu chung cho phép chúng tôi tối ưu hóa khung GATK về độ chính xác, độ ổn định, và hiệu quả CPU và bộ nhớ, cũng như cho phép phân giải song song bộ nhớ chia sẻ và phân tán. Chúng tôi nhấn mạnh các khả năng của GATK bằng cách mô tả việc triển khai và ứng dụng các công cụ đáng tin cậy và dung nạp quy mô như máy tính phủ và gọi đa hình đơn nucleotide (SNP). Chúng tôi kết luận rằng khung lập trình GATK cho phép các nhà phát triển và nhà phân tích nhanh chóng và dễ dàng viết các công cụ NGS hiệu quả và đáng tin cậy, nhiều công cụ trong số đó đã được tích hợp vào các dự án giải trình tự quy mô lớn như Dự án Bộ Gen 1000 và Atlas Bộ Gen Ung thư.

#khoa học #giải trình tự DNA #Bộ Gen 1000 #GATK #MapReduce #phân tích bộ gen #sự biến dị di truyền #công cụ NGS #phân giải song song #SNP #Atlas Bộ Gen Ung thư
WebLogo: A Sequence Logo Generator: Figure 1
Tập 14 Số 6 - Trang 1188-1190 - 2004
Gavin E. Crooks, Gary C. Hon, John‐Marc Chandonia, Steven E. Brenner

WebLogo generates sequence logos, graphical representations of the patterns within a multiple sequence alignment. Sequence logos provide a richer and more precise description of sequence similarity than consensus sequences and can rapidly reveal significant features of the alignment otherwise difficult to perceive. Each logo consists of stacks of letters, one stack for each position in the sequence. The overall height of each stack indicates the sequence conservation at that position (measured in bits), whereas the height of symbols within the stack reflects the relative frequency of the corresponding amino or nucleic acid at that position. WebLogo has been enhanced recently with additional features and options, to provide a convenient and highly configurable sequence logo generator. A command line interface and the complete, open WebLogo source code are available for local installation and customization.

The Human Genome Browser at UCSC
Tập 12 Số 6 - Trang 996-1006 - 2002
Lior Pachter, Charles W. Sugnet, Terrence S. Furey, Krishna M. Roskin, Tom H. Pringle, Alan M. Zahler, and David Haussler

As vertebrate genome sequences near completion and research refocuses to their analysis, the issue of effective genome annotation display becomes critical. A mature web tool for rapid and reliable display of any requested portion of the genome at any scale, together with several dozen aligned annotation tracks, is provided athttp://genome.ucsc.edu. This browser displays assembly contigs and gaps, mRNA and expressed sequence tag alignments, multiple gene predictions, cross-species homologies, single nucleotide polymorphisms, sequence-tagged sites, radiation hybrid data, transposon repeats, and more as a stack of coregistered tracks. Text and sequence-based searches provide quick and precise access to any region of specific interest. Secondary links from individual features lead to sequence details and supplementary off-site databases. One-half of the annotation tracks are computed at the University of California, Santa Cruz from publicly available sequence data; collaborators worldwide provide the rest. Users can stably add their own custom tracks to the browser for educational or research purposes. The conceptual and technical framework of the browser, its underlying MYSQL database, and overall use are described. The web site currently serves over 50,000 pages per day to over 3000 different users.

Circos: An information aesthetic for comparative genomics
Tập 19 Số 9 - Trang 1639-1645 - 2009
Martin Krzywinski, Jacqueline E. Schein, İnanç Birol, Joseph M. Connors, Randy D. Gascoyne, Doug Horsman, Steven J.M. Jones, Marco A. Marra

We created a visualization tool called Circos to facilitate the identification and analysis of similarities and differences arising from comparisons of genomes. Our tool is effective in displaying variation in genome structure and, generally, any other kind of positional relationships between genomic intervals. Such data are routinely produced by sequence alignments, hybridization arrays, genome mapping, and genotyping studies. Circos uses a circular ideogram layout to facilitate the display of relationships between pairs of positions by the use of ribbons, which encode the position, size, and orientation of related genomic elements. Circos is capable of displaying data as scatter, line, and histogram plots, heat maps, tiles, connectors, and text. Bitmap or vector images can be created from GFF-style data inputs and hierarchical configuration files, which can be easily generated by automated tools, making Circos suitable for rapid deployment in data analysis and reporting pipelines.

Velvet: Algorithms for de novo short read assembly using de Bruijn graphs
Tập 18 Số 5 - Trang 821-829 - 2008
Daniel R. Zerbino, Ewan Birney

We have developed a new set of algorithms, collectively called “Velvet,” to manipulate de Bruijn graphs for genomic sequence assembly. A de Bruijn graph is a compact representation based on short words (k-mers) that is ideal for high coverage, very short read (25–50 bp) data sets. Applying Velvet to very short reads and paired-ends information only, one can produce contigs of significant length, up to 50-kb N50 length in simulations of prokaryotic data and 3-kb N50 on simulated mammalian BACs. When applied to real Solexa data sets without read pairs, Velvet generated contigs of ∼8 kb in a prokaryote and 2 kb in a mammalian BAC, in close agreement with our simulated results without read-pair information. Velvet represents a new approach to assembly that can leverage very short reads in combination with read pairs to produce useful assemblies.

BLAT—The BLAST-Like Alignment Tool
Tập 12 Số 4 - Trang 656-664 - 2002
W. James Kent

Analyzing vertebrate genomes requires rapid mRNA/DNA and cross-species protein alignments. A new tool, BLAT, is more accurate and 500 times faster than popular existing tools for mRNA/DNA alignments and 50 times faster for protein alignments at sensitivity settings typically used when comparing vertebrate sequences. BLAT's speed stems from an index of all nonoverlapping K-mers in the genome. This index fits inside the RAM of inexpensive computers, and need only be computed once for each genome assembly. BLAT has several major stages. It uses the index to find regions in the genome likely to be homologous to the query sequence. It performs an alignment between homologous regions. It stitches together these aligned regions (often exons) into larger alignments (typically genes). Finally, BLAT revisits small internal exons possibly missed at the first stage and adjusts large gap boundaries that have canonical splice sites where feasible. This paper describes how BLAT was optimized. Effects on speed and sensitivity are explored for various K-mer sizes, mismatch schemes, and number of required index matches. BLAT is compared with other alignment programs on various test sets and then used in several genome-wide applications. http://genome.ucsc.edu hosts a web-basedBLAT server for the human genome.

CheckM: đánh giá chất lượng của bộ genome vi sinh vật được phục hồi từ các mẫu cô lập, tế bào đơn lẻ và metagenome Dịch bởi AI
Tập 25 Số 7 - Trang 1043-1055 - 2015
Donovan H. Parks, Michael Imelfort, Connor T. Skennerton, Philip Hugenholtz, Gene W. Tyson

Sự phục hồi quy mô lớn của các bộ genome từ các mẫu cô lập, tế bào đơn lẻ và dữ liệu metagenome đã trở nên khả thi nhờ những tiến bộ trong các phương pháp tính toán và giảm đáng kể chi phí giải trình tự. Mặc dù sự mở rộng này của các bộ genome nháp đang cung cấp thông tin chính yếu về tính đa dạng tiến hóa và chức năng của đời sống vi sinh vật, việc hoàn thiện tất cả các bộ reference genome hiện có đã trở thành không khả thi. Việc đưa ra các suy luận sinh học chính xác từ các genome nháp đòi hỏi ước lượng chính xác mức độ hoàn chỉnh và ô nhiễm của chúng. Các phương pháp hiện tại để đánh giá chất lượng genome là dựa theo cách riêng và thường sử dụng một số lượng hạn chế các gene “marker” được bảo tồn trên tất cả các genome vi khuẩn hoặc vi khuẩn cổ. Tại đây, chúng tôi giới thiệu CheckM, một phương pháp tự động để đánh giá chất lượng của một genome sử dụng một tập hợp rộng hơn các gene marker đặc thù cho vị trí của một genome trong cây reference genome và thông tin về vị trí đồng bộ của các gene này. Chúng tôi chứng minh hiệu quả của CheckM bằng cách sử dụng dữ liệu tổng hợp và nhiều loại genome chiết xuất từ mẫu cô lập, tế bào đơn lẻ và metagenome. CheckM được chứng minh là cung cấp các ước lượng chính xác về mức độ hoàn chỉnh và ô nhiễm của genome và vượt trội so với các phương pháp hiện có. Sử dụng CheckM, chúng tôi xác định một loạt các lỗi đang ảnh hưởng đến các genome mẫu cô lập công khai hiện có và chứng minh rằng các genome được thu nhận từ tế bào đơn lẻ và dữ liệu metagenome có sự khác biệt đáng kể về chất lượng. Để tạo điều kiện sử dụng các genome nháp, chúng tôi đề xuất một tiêu chí khách quan về chất lượng genome có thể được sử dụng để lựa chọn các genome phù hợp cho các phân tích tập trung vào gene và genome của các cộng đồng vi sinh vật.

#genome #CheckM #vi sinh vật #ô nhiễm #hoàn chỉnh #metagenome #tế bào đơn lẻ #phương pháp tự động
Fast model-based estimation of ancestry in unrelated individuals
Tập 19 Số 9 - Trang 1655-1664 - 2009
David H. Alexander, John Novembre, Kenneth Lange

Population stratification has long been recognized as a confounding factor in genetic association studies. Estimated ancestries, derived from multi-locus genotype data, can be used to perform a statistical correction for population stratification. One popular technique for estimation of ancestry is the model-based approach embodied by the widely applied program structure. Another approach, implemented in the program EIGENSTRAT, relies on Principal Component Analysis rather than model-based estimation and does not directly deliver admixture fractions. EIGENSTRAT has gained in popularity in part owing to its remarkable speed in comparison to structure. We present a new algorithm and a program, ADMIXTURE, for model-based estimation of ancestry in unrelated individuals. ADMIXTURE adopts the likelihood model embedded in structure. However, ADMIXTURE runs considerably faster, solving problems in minutes that take structure hours. In many of our experiments, we have found that ADMIXTURE is almost as fast as EIGENSTRAT. The runtime improvements of ADMIXTURE rely on a fast block relaxation scheme using sequential quadratic programming for block updates, coupled with a novel quasi-Newton acceleration of convergence. Our algorithm also runs faster and with greater accuracy than the implementation of an Expectation-Maximization (EM) algorithm incorporated in the program FRAPPE. Our simulations show that ADMIXTURE's maximum likelihood estimates of the underlying admixture coefficients and ancestral allele frequencies are as accurate as structure's Bayesian estimates. On real-world data sets, ADMIXTURE's estimates are directly comparable to those from structure and EIGENSTRAT. Taken together, our results show that ADMIXTURE's computational speed opens up the possibility of using a much larger set of markers in model-based ancestry estimation and that its estimates are suitable for use in correcting for population stratification in association studies.

Base-Calling of Automated Sequencer Traces UsingPhred. I. Accuracy Assessment
Tập 8 Số 3 - Trang 175-185 - 1998
Brent Ewing, LaDeana Hillier, Michael C. Wendl, Phil Green

The availability of massive amounts of DNA sequence information has begun to revolutionize the practice of biology. As a result, current large-scale sequencing output, while impressive, is not adequate to keep pace with growing demand and, in particular, is far short of what will be required to obtain the 3-billion-base human genome sequence by the target date of 2005. To reach this goal, improved automation will be essential, and it is particularly important that human involvement in sequence data processing be significantly reduced or eliminated. Progress in this respect will require both improved accuracy of the data processing software and reliable accuracy measures to reduce the need for human involvement in error correction and make human review more efficient. Here, we describe one step toward that goal: a base-calling program for automated sequencer traces,phred,with improved accuracy.phredappears to be the first base-calling program to achieve a lower error rate than the ABI software, averaging 40%–50% fewer errors in the data sets examined independent of position in read, machine running conditions, or sequencing chemistry.