MaCH: Sử dụng dữ liệu chuỗi và kiểu gen để ước tính các haplotype và kiểu gen chưa quan sát
Tóm tắt
Các nghiên cứu liên kết toàn bộ hệ gen (GWAS) có thể xác định các alen phổ biến có đóng góp vào sự nhạy cảm với các bệnh phức tạp. Mặc dù số lượng lớn SNPs được đánh giá trong mỗi nghiên cứu, tác động của phần lớn các SNP phổ biến phải được đánh giá gián tiếp bằng cách sử dụng các dấu hiệu đã được genotyped hoặc các haplotype của chúng làm đại diện. Chúng tôi đã triển khai một khung Markov Chain hiệu quả về mặt tính toán cho việc ước tính kiểu gen và haplotyping trong gói phần mềm MaCH miễn phí có sẵn. Phương pháp tiếp cận này mô tả các nhiễm sắc thể mẫu như những hình khảm của nhau và sử dụng dữ liệu kiểu gen hiện có và chuỗi shotgun để ước tính các kiểu gen và haplotype chưa quan sát, cùng với các thước đo hữu ích về chất lượng của những ước tính này. Phương pháp của chúng tôi đã được sử dụng rộng rãi để tạo điều kiện so sánh kết quả giữa các nghiên cứu cũng như phân tích tổng hợp GWAS. Tại đây, chúng tôi sử dụng các mô phỏng và kiểu gen thực nghiệm để đánh giá độ chính xác và tính hữu ích của nó, xem xét các lựa chọn bảng genotyping, cấu hình bảng tham chiếu và các thiết kế genotyping được thay bằng chuỗi shotgun. Điều quan trọng, chúng tôi cho thấy ước tính kiểu gen không chỉ tạo điều kiện cho phân tích giữa các nghiên cứu mà còn tăng công suất của các nghiên cứu liên kết di truyền. Chúng tôi cho rằng việc ước tính kiểu gen các biến thể phổ biến bằng cách sử dụng haplotypes HapMap làm tham chiếu là rất chính xác khi sử dụng dữ liệu SNP toàn bộ hệ gen hoặc số lượng nhỏ dữ liệu điển hình trong các nghiên cứu phác thảo chi tiết hơn. Hơn nữa, chúng tôi cho thấy phương pháp này có thể áp dụng trong nhiều quần thể khác nhau. Cuối cùng, chúng tôi minh họa làm thế nào phân tích liên kết các biến thể chưa quan sát sẽ được hưởng lợi từ những tiến bộ hiện tại như các bảng tham chiếu HapMap lớn hơn và công nghệ chuỗi shotgun toàn bộ hệ gen.
Từ khóa
#GWAS #kiểu gen #haplotype #HapMap #ước tính kiểu gen #genotyping #chuỗi shotgun #phân tích liên kết #SNP #mô phỏng #dịch tễ di truyền #phần mềm MaCHTài liệu tham khảo
Baum LE, 1972, An inequality and associated maximization technique in statistical estimation for probabilistic functions of Markov processes, Inequalities, 3, 1
Kruglyak L, 1996, Parametric and nonparametric linkage analysis: a unified multipoint approach, Am J Hum Genet, 58, 1347
Pe'er I, 2006, Evaluating and improving power in whole‐genome association studies using fixed marker sets, Nat Genet, 38, 663, 10.1038/ng1816
Pepe MS, 2003, The Statistical Evaluation of Medical Tests for Classification and Prediction, 10.1093/oso/9780198509844.001.0001