MaCH: Sử dụng dữ liệu chuỗi và kiểu gen để ước tính các haplotype và kiểu gen chưa quan sát

Genetic Epidemiology - Tập 34 Số 8 - Trang 816-834 - 2010
Yun Li1, Cristen J. Willer2, Jun Ding2, Paul Scheet3, Gonçalo R. Abecasis2
1Department of Genetics, Department of Biostatistics, University of North Carolina, Chapel Hill, North Carolina
2Center for Statistical Genetics, Department of Biostatistics, University of Michigan School of Public Health, Ann Arbor, Michigan
3Department of Epidemiology, University of Texas M. D. Anderson Cancer Center, Houston, Texas

Tóm tắt

Tóm tắtCác nghiên cứu liên kết toàn bộ hệ gen (GWAS) có thể xác định các alen phổ biến có đóng góp vào sự nhạy cảm với các bệnh phức tạp. Mặc dù số lượng lớn SNPs được đánh giá trong mỗi nghiên cứu, tác động của phần lớn các SNP phổ biến phải được đánh giá gián tiếp bằng cách sử dụng các dấu hiệu đã được genotyped hoặc các haplotype của chúng làm đại diện. Chúng tôi đã triển khai một khung Markov Chain hiệu quả về mặt tính toán cho việc ước tính kiểu gen và haplotyping trong gói phần mềm MaCH miễn phí có sẵn. Phương pháp tiếp cận này mô tả các nhiễm sắc thể mẫu như những hình khảm của nhau và sử dụng dữ liệu kiểu gen hiện có và chuỗi shotgun để ước tính các kiểu gen và haplotype chưa quan sát, cùng với các thước đo hữu ích về chất lượng của những ước tính này. Phương pháp của chúng tôi đã được sử dụng rộng rãi để tạo điều kiện so sánh kết quả giữa các nghiên cứu cũng như phân tích tổng hợp GWAS. Tại đây, chúng tôi sử dụng các mô phỏng và kiểu gen thực nghiệm để đánh giá độ chính xác và tính hữu ích của nó, xem xét các lựa chọn bảng genotyping, cấu hình bảng tham chiếu và các thiết kế genotyping được thay bằng chuỗi shotgun. Điều quan trọng, chúng tôi cho thấy ước tính kiểu gen không chỉ tạo điều kiện cho phân tích giữa các nghiên cứu mà còn tăng công suất của các nghiên cứu liên kết di truyền. Chúng tôi cho rằng việc ước tính kiểu gen các biến thể phổ biến bằng cách sử dụng haplotypes HapMap làm tham chiếu là rất chính xác khi sử dụng dữ liệu SNP toàn bộ hệ gen hoặc số lượng nhỏ dữ liệu điển hình trong các nghiên cứu phác thảo chi tiết hơn. Hơn nữa, chúng tôi cho thấy phương pháp này có thể áp dụng trong nhiều quần thể khác nhau. Cuối cùng, chúng tôi minh họa làm thế nào phân tích liên kết các biến thể chưa quan sát sẽ được hưởng lợi từ những tiến bộ hiện tại như các bảng tham chiếu HapMap lớn hơn và công nghệ chuỗi shotgun toàn bộ hệ gen. Genet. Epidemiol. 34: 816-834, 2010. © 2010 Wiley‐Liss, Inc.

Từ khóa

#GWAS #kiểu gen #haplotype #HapMap #ước tính kiểu gen #genotyping #chuỗi shotgun #phân tích liên kết #SNP #mô phỏng #dịch tễ di truyền #phần mềm MaCH

Tài liệu tham khảo

10.1038/ng786

10.1038/ng1801

Baum LE, 1972, An inequality and associated maximization technique in statistical estimation for probabilistic functions of Markov processes, Inequalities, 3, 1

10.1016/j.gde.2006.10.009

10.1186/1753-6561-3-s7-s5

10.1086/503876

10.1038/ng1863

10.1038/ng1128

10.1086/381000

10.1038/ng0707-815

10.1038/ng1911

10.1038/ng1001-229

10.1038/ng1669

10.2337/db07-1731

10.1038/75514

10.1038/nrg1521

10.1016/j.ajhg.2009.01.013

10.1159/000154413

Kruglyak L, 1996, Parametric and nonparametric linkage analysis: a unified multipoint approach, Am J Hum Genet, 58, 1347

10.1089/cmb.1998.5.1

10.1073/pnas.84.8.2363

10.1038/ng.125

10.1093/bioinformatics/btp352

10.1101/gr.078212.108

10.1093/genetics/165.4.2213

10.1146/annurev.genom.9.081307.164242

10.1038/ng1457

10.1086/500808

10.1038/ng2088

10.1086/319507

10.1016/j.jaci.2009.08.031

10.1073/pnas.230304397

10.1002/gepi.20182

Pe'er I, 2006, Evaluating and improving power in whole‐genome association studies using fixed marker sets, Nat Genet, 38, 663, 10.1038/ng1816

10.1371/journal.pone.0003551

Pepe MS, 2003, The Statistical Evaluation of Medical Tests for Classification and Prediction, 10.1093/oso/9780198509844.001.0001

10.1086/519795

10.1086/344207

10.1038/ng.74

10.1101/gr.3709305

10.1086/502802

10.1126/science.1142382

10.1371/journal.pgen.0030114

10.1086/428594

10.1086/428594

10.1086/319501

10.1038/nature04226

10.1038/nature06258

10.1093/bioinformatics/16.12.1082

10.1002/gepi.20131

10.1038/ng.76

10.1038/ng.287

10.1086/513109