Genome Research

Công bố khoa học tiêu biểu

* Dữ liệu chỉ mang tính chất tham khảo

Sắp xếp:  
The Relative Power of Family-Based and Case-Control Designs for Linkage Disequilibrium Studies of Complex Human Diseases I. DNA Pooling
Genome Research - Tập 8 Số 12 - Trang 1273-1288 - 1998
Neil Risch, Jun Teng

We consider statistics for analyzing a variety of family-based and nonfamily-based designs for detecting linkage disequilibrium of a marker with a disease susceptibility locus. These designs include sibships with parents, sibships without parents, and use of unrelated controls. We also provide formulas for and evaluate the relative power of different study designs using these statistics. In this first paper in the series, we derive statistical tests based on data derived from DNA pooling experiments and describe their characteristics. Although designs based on affected and unaffected sibs without parents are usually robust to population stratification, they suffer a loss of power compared with designs using parents or unrelateds as controls. Although increasing the number of unaffected sibs improves power, the increase is generally not substantial. Designs including sibships with multiple affected sibs are typically the most powerful, with any of these control groups, when the disease allele frequency is low. When the allele frequency is high, however, designs with unaffected sibs as controls do not retain this advantage. In designs with parents, having an affected parent has little impact on the power, except for rare dominant alleles, where the power is increased compared with families with no affected parents. Finally, we also demonstrate that for sibships with parents, only the parents require individual genotyping to derive the TDT statistic, whereas all the offspring can be pooled. This can potentially lead to considerable savings in genotyping, especially for multiplex sibships. The formulas and tables we derive should provide some guidance to investigators designing nuclear family-based linkage disequilibrium studies for complex diseases.

Post-transcriptional circadian regulation in macrophages organizes temporally distinct immunometabolic states
Genome Research - Tập 31 Số 2 - Trang 171-185 - 2021
Emily Collins, Mariana P. Cervantes‐Silva, George A. Timmons, James R. O’Siorain, Annie M. Curtis, Jennifer Hurley

Our core timekeeping mechanism, the circadian clock, plays a vital role in immunity. Although the mechanics of circadian control over the immune response is generally explained by transcriptional activation or repression derived from this clock's transcription-translation negative-feedback loop, research suggests that some regulation occurs beyond transcriptional activity. We comprehensively profiled the transcriptome and proteome of murine bone marrow-derived macrophages and found that only 15% of the circadian proteome had corresponding oscillating mRNA, suggesting post-transcriptional regulation influences macrophage clock regulatory output to a greater extent than any other tissue previously profiled. This regulation may be explained by the robust temporal enrichment we identified for proteins involved in degradation and translation. Extensive post-transcriptional temporal-gating of metabolic pathways was also observed and further corresponded with daily variations in ATP production, mitochondrial morphology, and phagocytosis. The disruption of this circadian post-transcriptional metabolic regulation impaired immune functionality. Our results demonstrate that cell-intrinsic post-transcriptional regulation is a primary driver of circadian output in macrophages and that this regulation, particularly of metabolic pathways, plays an important role in determining their response to immune stimuli.

OrthoMCL: Nhận diện Nhóm Ortholog cho Bộ Gene Sinh vật Nhân thực Dịch bởi AI
Genome Research - Tập 13 Số 9 - Trang 2178-2189 - 2003
Li Li, Christian J. Stoeckert, David S. Roos

Việc nhận diện các nhóm ortholog rất có ích cho việc chú thích bộ gene, nghiên cứu tiến hóa gene/protein, so sánh bộ gene, và nhận diện các chuỗi giới hạn theo phân loại. Tuy nhiên, các phương pháp đã được khai thác thành công cho phân tích bộ gene vi khuẩn lại gặp khó khăn khi áp dụng cho sinh vật nhân thực, do kích thước lớn của các bộ gene này có thể chứa nhiều gene paralog và thông tin chuỗi thường không đầy đủ. OrthoMCL cung cấp một phương pháp có khả năng mở rộng để xây dựng các nhóm ortholog trên nhiều loài sinh vật nhân thực, sử dụng thuật toán Nhóm Markov để nhóm các ortholog và paralog giả định. Phương pháp này thực hiện tương tự với thuật toán INPARANOID khi áp dụng cho hai bộ gene, nhưng có thể mở rộng để phân nhóm ortholog từ nhiều loài. Các cụm OrthoMCL nhất quán với những nhóm được nhận diện bởi EGO, nhưng việc nhận diện cải tiến của paralog "gần đây" cho phép hợp nhất các nhóm EGO chồng chéo đại diện cho cùng một gene. So sánh với các chú thích EC được gán trước đó đề xuất mức độ tin cậy cao, ngụ ý tính tiện ích cho việc chú thích bộ gene sinh vật nhân thực tự động. OrthoMCL đã được áp dụng cho bộ dữ liệu proteome từ bảy bộ gene có sẵn công khai (người, ruồi giấm, giun kẽm, nấm men, Arabidopsis, ký sinh trùng sốt rét Plasmodium falciparum, và Escherichia coli). Giao diện Web cho phép truy vấn dựa trên các gene cá nhân hoặc các mẫu hình phát sinh loài do người dùng định nghĩa (http://www.cbil.upenn.edu/gene-family). Phân tích các cụm bao gồm các gene của P. falciparum nhận diện nhiều enzyme chưa được chú thích đầy đủ trong quá trình chú thích sơ bộ của bộ gene ký sinh trùng này.

#Ortholog #Eukaryotic Genomes #OrthoMCL #Comparative Genomics #Gene Annotation #Markov Cluster Algorithm #Paralog Recognition #Proteome Analysis
Maftools: efficient and comprehensive analysis of somatic variants in cancer
Genome Research - Tập 28 Số 11 - Trang 1747-1756 - 2018
Anand Mayakonda, De–Chen Lin, Yassen Assenov, Christoph Plass, H. Phillip Koeffler

Numerous large-scale genomic studies of matched tumor-normal samples have established the somatic landscapes of most cancer types. However, the downstream analysis of data from somatic mutations entails a number of computational and statistical approaches, requiring usage of independent software and numerous tools. Here, we describe an R Bioconductor package, Maftools, which offers a multitude of analysis and visualization modules that are commonly used in cancer genomic studies, including driver gene identification, pathway, signature, enrichment, and association analyses. Maftools only requires somatic variants in Mutation Annotation Format (MAF) and is independent of larger alignment files. With the implementation of well-established statistical and computational methods, Maftools facilitates data-driven research and comparative analysis to discover novel results from publicly available data sets. In the present study, using three of the well-annotated cohorts from The Cancer Genome Atlas (TCGA), we describe the application of Maftools to reproduce known results. More importantly, we show that Maftools can also be used to uncover novel findings through integrative analysis.

PCR định lượng thời gian thực. Dịch bởi AI
Genome Research - Tập 6 Số 10 - Trang 986-994 - 1996
Chris Heid, Junko Stevens, Kenneth J. Livak, P. Williams

Chúng tôi đã phát triển một phương pháp PCR định lượng "thời gian thực" mới. Phương pháp này đo sự tích lũy của sản phẩm PCR qua một đầu dò fluorogenic gắn nhãn kép (tức là, đầu dò TaqMan). Phương pháp này cung cấp phép đo định lượng số lượng bản sao gene rất chính xác và nghiêm ngặt. Không giống như các phương pháp PCR định lượng khác, PCR thời gian thực không yêu cầu xử lý mẫu sau PCR, ngăn ngừa sự lây nhiễm tiềm ẩn qua lại của sản phẩm PCR và dẫn đến các xét nghiệm nhanh hơn và hiệu suất cao hơn. Phương pháp PCR định lượng thời gian thực có một phạm vi động rất lớn trong việc xác định phân tử mục tiêu bắt đầu (ít nhất là năm bậc độ lớn). PCR định lượng thời gian thực cực kỳ chính xác và ít tốn công sức hơn các phương pháp PCR định lượng hiện tại.

#PCR định lượng thời gian thực #đầu dò TaqMan #gen bản sao #nhiễm tiềm ẩn #phương pháp định lượng #tốc độ cao #phạm vi động.
A single-base resolution map of an archaeal transcriptome
Genome Research - Tập 20 Số 1 - Trang 133-141 - 2010
Omri Wurtzel, Rajat Sapra, Feng Chen, Yiwen Zhu, Blake A. Simmons, Rotem Sorek

Organisms of the third domain of life, the Archaea, share molecular characteristics both with Bacteria and Eukarya. These organisms attract scientific attention as research models for regulation and evolution of processes such as transcription, translation, and RNA processing. We have reconstructed the primary transcriptome of Sulfolobus solfataricus P2, one of the most widely studied model archaeal organisms. Analysis of 625 million bases of sequenced cDNAs yielded a single-base-pair resolution map of transcription start sites and operon structures for more than 1000 transcriptional units. The analysis led to the discovery of 310 expressed noncoding RNAs, with an extensive expression of overlapping cis-antisense transcripts to a level unprecedented in any bacteria or archaea but resembling that of eukaryotes. As opposed to bacterial transcripts, most Sulfolobus transcripts completely lack 5′-UTR sequences, suggesting that mRNA/ncRNA interactions differ between Bacteria and Archaea. The data also reveal internal hotspots for transcript cleavage linked to RNA degradation and predict sequence motifs that promote RNA destabilization. This study highlights transcriptome sequencing as a key tool for understanding the mechanisms and extent of RNA-based regulation in Bacteria and Archaea.

Bộ công cụ phân tích bộ gen: Một khung MapReduce cho việc phân tích dữ liệu giải trình tự DNA thế hệ tiếp theo Dịch bởi AI
Genome Research - Tập 20 Số 9 - Trang 1297-1303 - 2010
Aaron McKenna, Matthew G. Hanna, Eric Banks, Andrey Sivachenko, Kristian Cibulskis, Andrew Kernytsky, Kiran Garimella, David Green, Stacey Gabriel, Mark J. Daly, Mark A. DePristo

Các dự án giải trình tự DNA thế hệ tiếp theo (NGS), chẳng hạn như Dự án Bộ Gen 1000, đã và đang cách mạng hóa sự hiểu biết của chúng ta về sự biến dị di truyền giữa các cá nhân. Tuy nhiên, các tập dữ liệu khổng lồ được tạo ra bởi NGS—chỉ riêng dự án thí điểm Bộ Gen 1000 đã bao gồm gần năm terabase—làm cho việc viết các công cụ phân tích giàu tính năng, hiệu quả và đáng tin cậy trở nên khó khăn ngay cả đối với những cá nhân có kiến thức tính toán phức tạp. Thực tế, nhiều chuyên gia gặp phải giới hạn về quy mô và sự dễ dàng trong việc trả lời các câu hỏi khoa học bởi sự phức tạp trong việc truy cập và xử lý dữ liệu do những máy này tạo ra. Trong bài báo này, chúng tôi thảo luận về Bộ công cụ Phân tích Bộ Gen (GATK) của chúng tôi, một khung lập trình có cấu trúc được thiết kế để tạo điều kiện thuận lợi cho sự phát triển của các công cụ phân tích hiệu quả và đáng tin cậy dành cho các máy giải trình tự DNA thế hệ tiếp theo sử dụng triết lý lập trình hàm MapReduce. GATK cung cấp một bộ mẫu truy cập dữ liệu nhỏ nhưng phong phú, bao trùm hầu hết các nhu cầu của công cụ phân tích. Việc tách biệt các tính toán phân tích cụ thể khỏi hạ tầng quản lý dữ liệu chung cho phép chúng tôi tối ưu hóa khung GATK về độ chính xác, độ ổn định, và hiệu quả CPU và bộ nhớ, cũng như cho phép phân giải song song bộ nhớ chia sẻ và phân tán. Chúng tôi nhấn mạnh các khả năng của GATK bằng cách mô tả việc triển khai và ứng dụng các công cụ đáng tin cậy và dung nạp quy mô như máy tính phủ và gọi đa hình đơn nucleotide (SNP). Chúng tôi kết luận rằng khung lập trình GATK cho phép các nhà phát triển và nhà phân tích nhanh chóng và dễ dàng viết các công cụ NGS hiệu quả và đáng tin cậy, nhiều công cụ trong số đó đã được tích hợp vào các dự án giải trình tự quy mô lớn như Dự án Bộ Gen 1000 và Atlas Bộ Gen Ung thư.

#khoa học #giải trình tự DNA #Bộ Gen 1000 #GATK #MapReduce #phân tích bộ gen #sự biến dị di truyền #công cụ NGS #phân giải song song #SNP #Atlas Bộ Gen Ung thư
CheckM: đánh giá chất lượng của bộ genome vi sinh vật được phục hồi từ các mẫu cô lập, tế bào đơn lẻ và metagenome Dịch bởi AI
Genome Research - Tập 25 Số 7 - Trang 1043-1055 - 2015
Donovan H. Parks, Michael Imelfort, Connor T. Skennerton, Philip Hugenholtz, Gene W. Tyson

Sự phục hồi quy mô lớn của các bộ genome từ các mẫu cô lập, tế bào đơn lẻ và dữ liệu metagenome đã trở nên khả thi nhờ những tiến bộ trong các phương pháp tính toán và giảm đáng kể chi phí giải trình tự. Mặc dù sự mở rộng này của các bộ genome nháp đang cung cấp thông tin chính yếu về tính đa dạng tiến hóa và chức năng của đời sống vi sinh vật, việc hoàn thiện tất cả các bộ reference genome hiện có đã trở thành không khả thi. Việc đưa ra các suy luận sinh học chính xác từ các genome nháp đòi hỏi ước lượng chính xác mức độ hoàn chỉnh và ô nhiễm của chúng. Các phương pháp hiện tại để đánh giá chất lượng genome là dựa theo cách riêng và thường sử dụng một số lượng hạn chế các gene “marker” được bảo tồn trên tất cả các genome vi khuẩn hoặc vi khuẩn cổ. Tại đây, chúng tôi giới thiệu CheckM, một phương pháp tự động để đánh giá chất lượng của một genome sử dụng một tập hợp rộng hơn các gene marker đặc thù cho vị trí của một genome trong cây reference genome và thông tin về vị trí đồng bộ của các gene này. Chúng tôi chứng minh hiệu quả của CheckM bằng cách sử dụng dữ liệu tổng hợp và nhiều loại genome chiết xuất từ mẫu cô lập, tế bào đơn lẻ và metagenome. CheckM được chứng minh là cung cấp các ước lượng chính xác về mức độ hoàn chỉnh và ô nhiễm của genome và vượt trội so với các phương pháp hiện có. Sử dụng CheckM, chúng tôi xác định một loạt các lỗi đang ảnh hưởng đến các genome mẫu cô lập công khai hiện có và chứng minh rằng các genome được thu nhận từ tế bào đơn lẻ và dữ liệu metagenome có sự khác biệt đáng kể về chất lượng. Để tạo điều kiện sử dụng các genome nháp, chúng tôi đề xuất một tiêu chí khách quan về chất lượng genome có thể được sử dụng để lựa chọn các genome phù hợp cho các phân tích tập trung vào gene và genome của các cộng đồng vi sinh vật.

#genome #CheckM #vi sinh vật #ô nhiễm #hoàn chỉnh #metagenome #tế bào đơn lẻ #phương pháp tự động
Tạo và phát hiện các trình tự 16S rRNA chimeric trong các sản phẩm PCR được giải trình tự Sanger và 454-pyrosequenced Dịch bởi AI
Genome Research - Tập 21 Số 3 - Trang 494-504 - 2011
Brian J. Haas, Dirk Gevers, Ashlee M. Earl, Mike Feldgarden, Doyle V. Ward, Georgia Giannoukos, Dawn Ciulla, Diana Tabbaa, Sarah K. Highlander, Erica Sodergren, Barbara A. Methé, Todd Z. DeSantis, Joseph F. Petrosino, Rob Knight, Bruce W. Birren

Đa dạng vi khuẩn trong các mẫu môi trường thường được đánh giá bằng cách sử dụng các trình tự gen 16S rRNA (16S) khuếch đại bằng PCR. Tuy nhiên, sự đa dạng được cảm nhận có thể bị ảnh hưởng bởi việc chuẩn bị mẫu, việc lựa chọn mồi và hình thành các sản phẩm khuếch đại 16S chimeric. Chimera là các sản phẩm lai tạo giữa nhiều trình tự gốc có thể bị diễn giải sai là các sinh vật mới, do đó làm gia tăng sự đa dạng rõ ràng. Chúng tôi đã phát triển một công cụ phát hiện chimera mới gọi là Chimera Slayer (CS). CS phát hiện các chimera với độ nhạy lớn hơn so với các phương pháp trước đây, hoạt động tốt trên các trình tự ngắn như những trình tự được tạo ra bởi máy giải trình tự Genome của 454 Life Sciences (Roche), và có thể mở rộng đến các bộ dữ liệu lớn. Bằng cách so sánh hiệu suất CS với các trình tự từ một hỗn hợp DNA kiểm soát của các sinh vật đã biết và một tập hợp chimera được mô phỏng, chúng tôi cung cấp những hiểu biết về các yếu tố ảnh hưởng đến sự hình thành chimera như sự phong phú của trình tự, mức độ tương đồng giữa các gen 16S và điều kiện PCR. Các chimera được phát hiện có xu hướng hình thành lại giữa các lần khuếch đại độc lập và góp phần vào những nhận thức sai lệch về sự đa dạng của mẫu cũng như việc nhận dạng sai các loại mới, với các loài ít phong phú cho thấy tỷ lệ chimera vượt quá 70%. Các trình tự metagenomic không mục tiêu của cộng đồng mô phỏng của chúng tôi dường như không có chimera 16S, hỗ trợ một vai trò của metagenomics trong việc xác nhận các sinh vật mới được phát hiện trong các khảo sát trình tự mục tiêu.

#chimera #16S rRNA #đa dạng vi khuẩn #phát hiện chimera #Chimera Slayer #metagenomic #khuếch đại PCR #trình tự gen #phân tử học #sinh vật mới
Relating CNVs to transcriptome data at fine resolution: Assessment of the effect of variant size, type, and overlap with functional regions
Genome Research - Tập 21 Số 12 - Trang 2004-2013 - 2011
Andreas Schlattl, Simon Anders, Sebastian M. Waszak, Wolfgang Huber, Jan O. Korbel

Copy-number variants (CNVs) form an abundant class of genetic variation with a presumed widespread impact on individual traits. While recent advances, such as the population-scale sequencing of human genomes, facilitated the fine-scale mapping of CNVs, the phenotypic impact of most of these CNVs remains unclear. By relating copy-number genotypes to transcriptome sequencing data, we have evaluated the impact of CNVs, mapped at fine scale, on gene expression. Based on data from 129 individuals with ancestry from two populations, we identified CNVs associated with the expression of 110 genes, with 13% of the associations involving complex, multiallelic CNVs. Categorization of CNVs according to variant type, size, and gene overlap enabled us to examine the impact of different CNV classes on expression variation. While many small (<4 kb) CNVs were associated with expression variation, overall we observed an enrichment of large duplications and deletions, including large intergenic CNVs, relative to the entire set of expression-associated CNVs. Furthermore, the copy number of genes intersecting with CNVs typically correlated positively with the genes' expression, and also was more strongly correlated with expression than nearby single nucleotide polymorphisms, suggesting a frequent causal role of CNVs in expression quantitative trait loci (eQTLs). We also elucidated unexpected cases of negative correlations between copy number and expression by assessing the CNVs' effects on the structure and regulation of genes. Finally, we examined dosage compensation of transcript levels. Our results suggest that association studies can gain in resolution and power by including fine-scale CNV information, such as those obtained from population-scale sequencing.

Tổng số: 237   
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 10