Genome Research
1549-5469
1088-9051
Mỹ
Cơ quản chủ quản: COLD SPRING HARBOR LAB PRESS, PUBLICATIONS DEPT , Cold Spring Harbor Laboratory Press
Các bài báo tiêu biểu
Cytoscape is an open source software project for integrating biomolecular interaction networks with high-throughput expression data and other molecular states into a unified conceptual framework. Although applicable to any system of molecular components and interactions, Cytoscape is most powerful when used in conjunction with large databases of protein-protein, protein-DNA, and genetic interactions that are increasingly available for humans and model organisms. Cytoscape's software Core provides basic functionality to layout and query the network; to visually integrate the network with expression profiles, phenotypes, and other molecular states; and to link the network to databases of functional annotations. The Core is extensible through a straightforward plug-in architecture, allowing rapid development of additional computational analyses and features. Several case studies of Cytoscape plug-ins are surveyed, including a search for interaction pathways correlating with changes in gene expression, a study of protein complexes involved in cellular recovery to DNA damage, inference of a combined physical/functional interaction network for
Các dự án giải trình tự DNA thế hệ tiếp theo (NGS), chẳng hạn như Dự án Bộ Gen 1000, đã và đang cách mạng hóa sự hiểu biết của chúng ta về sự biến dị di truyền giữa các cá nhân. Tuy nhiên, các tập dữ liệu khổng lồ được tạo ra bởi NGS—chỉ riêng dự án thí điểm Bộ Gen 1000 đã bao gồm gần năm terabase—làm cho việc viết các công cụ phân tích giàu tính năng, hiệu quả và đáng tin cậy trở nên khó khăn ngay cả đối với những cá nhân có kiến thức tính toán phức tạp. Thực tế, nhiều chuyên gia gặp phải giới hạn về quy mô và sự dễ dàng trong việc trả lời các câu hỏi khoa học bởi sự phức tạp trong việc truy cập và xử lý dữ liệu do những máy này tạo ra. Trong bài báo này, chúng tôi thảo luận về Bộ công cụ Phân tích Bộ Gen (GATK) của chúng tôi, một khung lập trình có cấu trúc được thiết kế để tạo điều kiện thuận lợi cho sự phát triển của các công cụ phân tích hiệu quả và đáng tin cậy dành cho các máy giải trình tự DNA thế hệ tiếp theo sử dụng triết lý lập trình hàm MapReduce. GATK cung cấp một bộ mẫu truy cập dữ liệu nhỏ nhưng phong phú, bao trùm hầu hết các nhu cầu của công cụ phân tích. Việc tách biệt các tính toán phân tích cụ thể khỏi hạ tầng quản lý dữ liệu chung cho phép chúng tôi tối ưu hóa khung GATK về độ chính xác, độ ổn định, và hiệu quả CPU và bộ nhớ, cũng như cho phép phân giải song song bộ nhớ chia sẻ và phân tán. Chúng tôi nhấn mạnh các khả năng của GATK bằng cách mô tả việc triển khai và ứng dụng các công cụ đáng tin cậy và dung nạp quy mô như máy tính phủ và gọi đa hình đơn nucleotide (SNP). Chúng tôi kết luận rằng khung lập trình GATK cho phép các nhà phát triển và nhà phân tích nhanh chóng và dễ dàng viết các công cụ NGS hiệu quả và đáng tin cậy, nhiều công cụ trong số đó đã được tích hợp vào các dự án giải trình tự quy mô lớn như Dự án Bộ Gen 1000 và Atlas Bộ Gen Ung thư.
WebLogo generates sequence logos, graphical representations of the patterns within a multiple sequence alignment. Sequence logos provide a richer and more precise description of sequence similarity than consensus sequences and can rapidly reveal significant features of the alignment otherwise difficult to perceive. Each logo consists of stacks of letters, one stack for each position in the sequence. The overall height of each stack indicates the sequence conservation at that position (measured in bits), whereas the height of symbols within the stack reflects the relative frequency of the corresponding amino or nucleic acid at that position. WebLogo has been enhanced recently with additional features and options, to provide a convenient and highly configurable sequence logo generator. A command line interface and the complete, open WebLogo source code are available for local installation and customization.
As vertebrate genome sequences near completion and research refocuses to their analysis, the issue of effective genome annotation display becomes critical. A mature web tool for rapid and reliable display of any requested portion of the genome at any scale, together with several dozen aligned annotation tracks, is provided at
We created a visualization tool called Circos to facilitate the identification and analysis of similarities and differences arising from comparisons of genomes. Our tool is effective in displaying variation in genome structure and, generally, any other kind of positional relationships between genomic intervals. Such data are routinely produced by sequence alignments, hybridization arrays, genome mapping, and genotyping studies. Circos uses a circular ideogram layout to facilitate the display of relationships between pairs of positions by the use of ribbons, which encode the position, size, and orientation of related genomic elements. Circos is capable of displaying data as scatter, line, and histogram plots, heat maps, tiles, connectors, and text. Bitmap or vector images can be created from GFF-style data inputs and hierarchical configuration files, which can be easily generated by automated tools, making Circos suitable for rapid deployment in data analysis and reporting pipelines.
We have developed a new set of algorithms, collectively called “Velvet,” to manipulate de Bruijn graphs for genomic sequence assembly. A de Bruijn graph is a compact representation based on short words (
Analyzing vertebrate genomes requires rapid mRNA/DNA and cross-species protein alignments. A new tool,
Sự phục hồi quy mô lớn của các bộ genome từ các mẫu cô lập, tế bào đơn lẻ và dữ liệu metagenome đã trở nên khả thi nhờ những tiến bộ trong các phương pháp tính toán và giảm đáng kể chi phí giải trình tự. Mặc dù sự mở rộng này của các bộ genome nháp đang cung cấp thông tin chính yếu về tính đa dạng tiến hóa và chức năng của đời sống vi sinh vật, việc hoàn thiện tất cả các bộ reference genome hiện có đã trở thành không khả thi. Việc đưa ra các suy luận sinh học chính xác từ các genome nháp đòi hỏi ước lượng chính xác mức độ hoàn chỉnh và ô nhiễm của chúng. Các phương pháp hiện tại để đánh giá chất lượng genome là dựa theo cách riêng và thường sử dụng một số lượng hạn chế các gene “marker” được bảo tồn trên tất cả các genome vi khuẩn hoặc vi khuẩn cổ. Tại đây, chúng tôi giới thiệu CheckM, một phương pháp tự động để đánh giá chất lượng của một genome sử dụng một tập hợp rộng hơn các gene marker đặc thù cho vị trí của một genome trong cây reference genome và thông tin về vị trí đồng bộ của các gene này. Chúng tôi chứng minh hiệu quả của CheckM bằng cách sử dụng dữ liệu tổng hợp và nhiều loại genome chiết xuất từ mẫu cô lập, tế bào đơn lẻ và metagenome. CheckM được chứng minh là cung cấp các ước lượng chính xác về mức độ hoàn chỉnh và ô nhiễm của genome và vượt trội so với các phương pháp hiện có. Sử dụng CheckM, chúng tôi xác định một loạt các lỗi đang ảnh hưởng đến các genome mẫu cô lập công khai hiện có và chứng minh rằng các genome được thu nhận từ tế bào đơn lẻ và dữ liệu metagenome có sự khác biệt đáng kể về chất lượng. Để tạo điều kiện sử dụng các genome nháp, chúng tôi đề xuất một tiêu chí khách quan về chất lượng genome có thể được sử dụng để lựa chọn các genome phù hợp cho các phân tích tập trung vào gene và genome của các cộng đồng vi sinh vật.
Population stratification has long been recognized as a confounding factor in genetic association studies. Estimated ancestries, derived from multi-locus genotype data, can be used to perform a statistical correction for population stratification. One popular technique for estimation of ancestry is the model-based approach embodied by the widely applied program
The availability of massive amounts of DNA sequence information has begun to revolutionize the practice of biology. As a result, current large-scale sequencing output, while impressive, is not adequate to keep pace with growing demand and, in particular, is far short of what will be required to obtain the 3-billion-base human genome sequence by the target date of 2005. To reach this goal, improved automation will be essential, and it is particularly important that human involvement in sequence data processing be significantly reduced or eliminated. Progress in this respect will require both improved accuracy of the data processing software and reliable accuracy measures to reduce the need for human involvement in error correction and make human review more efficient. Here, we describe one step toward that goal: a base-calling program for automated sequencer traces,