GAMETES: một thuật toán nhanh, trực tiếp để tạo ra các mô hình tương tác di truyền tinh khiết và nghiêm ngặt với cấu trúc ngẫu nhiên

BioData Mining - Tập 5 Số 1 - 2012
Ryan J. Urbanowicz1, Jeff Kiralis1, Nicholas A. Sinnott‐Armstrong1, Heberling Tamra1, Jonathan Fisher1, Jason H. Moore1
1Department of Genetics, Institute for Quantitative Biomedical Sciences, Dartmouth Medical School, Lebanon, NH, USA

Tóm tắt

Tóm tắt Nền tảng

Các nhà di truyền học nhìn ra ngoài các mối liên kết bệnh tại một locus đơn lẻ cần những chiến lược bổ sung để phát hiện ảnh hưởng đa locus phức tạp. Tương tác di truyền, một hiệu ứng che khuất đa locus, đặt ra một thách thức đặc biệt và đã được nhắm đến trong phát triển sinh tin học. Việc đánh giá kỹ lưỡng các thuật toán mới yêu cầu các nghiên cứu mô phỏng trong đó các mô hình bệnh đã biết được tìm kiếm. Đến nay, các phương pháp tốt nhất để tạo ra các mô hình tương tác di truyền đa locus mô phỏng phụ thuộc vào các thuật toán di truyền. Tuy nhiên, các phương pháp như vậy tiêu tốn tính toán cao, khó thích ứng với nhiều mục tiêu và không có khả năng tạo ra các mô hình với dạng tương tác di truyền chính xác mà chúng tôi gọi là tinh khiết và nghiêm ngặt. Các mô hình tương tác di truyền tinh khiết và nghiêm ngặt cấu thành trường hợp xấu nhất về việc phát hiện liên kết bệnh, vì những liên kết này có thể chỉ được quan sát nếu tất cả n-locus được đưa vào mô hình bệnh. Điều này khiến chúng trở thành tiêu chuẩn vàng hấp dẫn cho các nghiên cứu mô phỏng xem xét các hiệu ứng đa locus phức tạp.

Kết quả

Chúng tôi giới thiệu GAMETES, một gói phần mềm thân thiện với người dùng và thuật toán tạo ra các mô hình bệnh biallelic SNP (biến thể đơn nucleotide) phức tạp cho các nghiên cứu mô phỏng. GAMETES nhanh chóng và chính xác tạo ra các mô hình n-locus ngẫu nhiên, tinh khiết và nghiêm ngặt với các ràng buộc di truyền được chỉ định. Các ràng buộc này bao gồm di truyền học, tần suất alen nhỏ của các SNP và tỷ lệ phổ biến trong quần thể. GAMETES cũng bao gồm một chiến lược mô phỏng tập dữ liệu đơn giản có thể được sử dụng để tạo nhanh một kho lưu trữ các tập dữ liệu mô phỏng cho các mô hình di truyền nhất định. Chúng tôi lưu ý đến tính hữu ích và những hạn chế của GAMETES thông qua một ví dụ nghiên cứu mô phỏng sử dụng MDR, một thuật toán được thiết kế để phát hiện tương tác di truyền.

Kết luận

GAMETES là một công cụ nhanh chóng, linh hoạt và chính xác để tạo ra các mô hình n-locus phức tạp với các cấu trúc ngẫu nhiên. Mặc dù GAMETES có khả năng hạn chế trong việc tạo ra các mô hình với di truyền học cao hơn, nhưng nó rất giỏi trong việc tạo ra các mô hình có di truyền thấp thường được sử dụng trong các nghiên cứu mô phỏng đánh giá các thuật toán mới. Ngoài ra, chiến lược mô hình hóa của GAMETES có thể được kết hợp linh hoạt với bất kỳ chiến lược mô phỏng tập dữ liệu nào. Ngoài việc mô phỏng tập dữ liệu, GAMETES có thể được sử dụng để theo đuổi việc đặc trưng lý thuyết của các mô hình di truyền và tương tác di truyền.

Từ khóa


Tài liệu tham khảo

Shriner D, Vaughan L, Padilla M: Problems with genome-wide association studies. Science. 2007, 316 (5833): 1840c-10.1126/science.316.5833.1840c.

Eichler E, Flint J, Gibson G, Kong A, Leal S, Moore J, Nadeau J: Missing heritability and strategies for finding the underlying causes of complex disease. Nat Rev Genet. 2010, 11 (6): 446-450. 10.1038/nrg2809.

Thornton-Wells T, Moore J, Haines J: Genetics, statistics and human disease: analytical retooling for complexity. TRENDS in Genetics. 2004, 20 (12): 640-647. 10.1016/j.tig.2004.09.007.

Bateson W: Mendel’s Principles of Heredity. 1909, Cambridge University Press

Fisher R: The Correlation Between Relatives on the Supposition of Mendelian Inheritance. Trans R Soc of Edinburgh. 1918, 52: 399-433.

Cordell H: Epistasis: what it means, what it doesn’t mean, and statistical methods to detect it in humans. Human Mol Genet. 2002, 11 (20): 2463-10.1093/hmg/11.20.2463.

McKinney B, Reif D, Ritchie M, Moore J: Machine learning for detecting gene-gene interactions: a review. Appl Bioinf. 2006, 5 (2): 77-88. 10.2165/00822942-200605020-00002.

Cordell H: Detecting gene–gene interactions that underlie human diseases. Nat Rev Genet. 2009, 10 (6): 392-404. 10.1038/nrg2579.

Moore J, Asselbergs F, Williams S: Bioinformatics challenges for genome-wide association studies. Bioinformatics. 2010, 26 (4): 445-10.1093/bioinformatics/btp713.

Carlborg O, Andersson L, Kinghorn B: The use of a genetic algorithm for simultaneous mapping of multiple interacting quantitative trait loci. Genetics. 2003, 155 (4): 2000-

Ploughman L, Boehnke M: Estimating the power of a proposed linkage study for a complex genetic trait. Am J Human Genet. 1989, 44 (4): 543-

Weeks D, Ott J, Lathrop G: SLINK: a general simulation program for linkage analysis. Am J Hum Genet. 1990, 47 (3): A204-

Bass M, Martin E, Mauser E: Pedigree generation for analysis of genetic linkage and association. Pacific Symposium on Biocomputing Hawaii. 2004, World Scientific Pub Co Inc, USA, 93-93.

Schmidt M, Hauser E, Martin E, Schmidt S: Extension of the SIMLA package for generating pedigrees with complex inheritance patterns: environmental covariates, gene-gene and gene-environment interaction. Stat App Genet and Mol Biol. 2005, 4: 1133-

Lemire M: SUP: an extension to SLINK to allow a larger number of marker loci to be simulated in pedigrees conditional on trait values. BMC Genet. 2006, 7: 40-

Nothnagel M: Simulation of LD block-structured SNP haplotype data and its use for the analysis of case-control data by supervised learning methods. Am J Hum Genet. 2002, 71 (suppl 4): A2363-

Moore J, Hahn L, Ritchie M, Thornton T, White B: Application Of Genetic Algorithms To The Discovery Of Complex Models For Simulation Studies In Human Genetics. Proceedings of the Genetic and Evolutionary Computation Conference New York. 2002, Morgan Kaufmann Publishers Inc, USA, 1155-1155.

Moore J, Hahn L, Ritchie M, Thornton T, White B: Routine discovery of complex genetic models using genetic algorithms. Appl Soft Comput. 2004, 4: 79-86. 10.1016/j.asoc.2003.08.003.

Mailund T, Schierup M, Pedersen C, Mechlenborg P, Madsen J, Schauser L: CoaSim: a flexible environment for simulating genetic data under coalescent models. BMC Bioinf. 2005, 6: 252-10.1186/1471-2105-6-252.

Dudek S, Motsinger A, Velez D, Williams S, Ritchie M: Data simulation software for whole-genome association and other studies in human genetics. Pacific Symposium on Biocomputing: Hawaii, USA. 2006, 11:, 499-510.

Li C, Li M: GWAsimulator: a rapid whole-genome simulation program. Bioinformatics. 2008, 24: 140-10.1093/bioinformatics/btm549.

Li J, Chen Y: Generating samples for association studies based on HapMap data. BMC Bioinf. 2008, 9: 44-10.1186/1471-2105-9-44.

Greene C, Himmelstein D, Moore J: A Model Free Method to Generate Human Genetics Datasets with Complex Gene-Disease Relationships. Evol Comput, Machine Learning and Data Mining in Bioinformatics. 2010, 6023: 74-85. 10.1007/978-3-642-12211-8_7.

Li W, Reich J: A Complete Enumeration and Classification of Two-Locus Disease Models. Human Heredity. 2000, 50 (6): 334-349. 10.1159/000022939.

Hallgrímsdóttir I, Yuster D: A complete classification of epistatic two-locus models. BMC Genet. 2008, 9: 17-

Culverhouse R, Suarez B, Lin J, Reich T: A perspective on epistasis: limits of models displaying no main effect. Am J Human Genet. 2002, 70 (2): 461-471. 10.1086/338759.

Motzkin T, Ralffa H, Thompson G, Thrall R: The Double Description Method. In: Kuhn, HW, Tucker AW (eds) Contributions to theory of games. 1953, 2: 51-73.

Ritchie M, Hahn L, Roodi N, Bailey L, Dupont W, Parl F, Moore J: Multifactor-dimensionality reduction reveals high-order interactions among estrogen-metabolism genes in sporadic breast cancer. Am J Human Genet. 2001, 69: 138-147. 10.1086/321276.

Hartl D, Clark A, Clark A: Principles of population genetics. 1997, Sinauer associates Sunderland, MA

Brodie III E: Why evolutionary genetics does not always add up. Epistasis and the evolutionary process. 2000,, pp. 3–19

Knuth D: The Art of Computer Programming 1: Fundamental Algorithms 2: Seminumerical Algorithms 3: Sorting and Searching. 1968, Addison-Wesley, MA