Một thuật toán mới cho phân tích liên kết dựa trên kiểu hình: Thuật toán Stochastic-EM

Annals of Human Genetics - Tập 68 Số 2 - Trang 165-177 - 2004
David‐Alexandre Trégouët1, Sylvie Escolano2, Laurence Tiret3, Alain Mallet2, Jean‐Louis Golmard2
1INSERM U525 2INSERM U436, Paris, France.
22INSERM U436, Paris, France
31INSERM U525

Tóm tắt

Tóm tắt

Hiện nay, người ta đã chấp nhận rộng rãi rằng thông tin kiểu hình có thể rất có giá trị trong việc nghiên cứu vai trò của một gen ứng cử trong nguyên nhân của các bệnh phức tạp. Trong trường hợp không có dữ liệu gia đình, các kiểu hình không thể được suy diễn từ kiểu gen, ngoại trừ đối với những cá thể đồng hợp tử tại tất cả các vị trí hoặc dị hợp tử chỉ tại một vị trí. Do đó, cần có các phương pháp thống kê để suy diễn kiểu hình từ dữ liệu kiểu gen và kiểm tra sự liên kết của chúng với một kiểu hình quan tâm. Hai thuật toán tối đa hóa khả năng (maximum likelihood) thường được sử dụng trong bối cảnh các nghiên cứu liên kết dựa trên kiểu hình, đó là thuật toán Newton-Raphson (NR) và thuật toán Dự đoán-Tối đa hóa (Expectation-Maximisation, EM). Để vượt qua những hạn chế của cả hai thuật toán, bao gồm việc hội tụ vào các cực địa phương và điểm yên ngựa, chúng tôi đã mô tả cách mà một phiên bản ngẫu nhiên của thuật toán EM, được gọi là SEM, có thể được sử dụng để kiểm tra sự liên kết giữa kiểu hình và kiểu gen. Các thuộc tính thống kê của thuật toán SEM đã được nghiên cứu thông qua một nghiên cứu mô phỏng cho một loạt các tình huống thực tiễn, bao gồm các mẫu nhỏ/lớn và kiểu hình hiếm/thường gặp, và các kết quả đã được so sánh với những gì thu được từ thuật toán NR tiêu chuẩn. Nghiên cứu mô phỏng của chúng tôi chỉ ra rằng thuật toán SEM cung cấp kết quả tương tự như những gì của thuật toán NR, làm cho thuật toán SEM trở nên thú vị cho phân tích liên kết dựa trên kiểu hình, đặc biệt là khi số lượng các đa hình (polymorphisms) là khá lớn.

Từ khóa


Tài liệu tham khảo

Broniatowski M., 1983, Reconnaissance de mélanges de densités par un algorithme d'apprentissage probabiliste, Data Anal Informatics, 3, 359

10.1086/302448

10.1080/00949659608811772

Celeux G., 1985, The SEM algorithm: a probabilistic teacher algorithm derived from the EM algorithm for the mixture problem, Comp Statist Quart, 2, 73

10.1080/17442509208833797

10.1016/0378-3758(94)00097-F

10.1046/j.1469-1809.1998.6210055.x

10.1111/j.0006-341X.1999.00565.x

10.1080/15326349308807283

10.1007/978-1-4899-4485-6_15

10.1038/ng582

10.1073/pnas.97.19.10483

Excoffier L., 1995, Maximum‐likelihood estimation of molecular haplotype frequencies in a diploid population, Mol Biol Evol, 12, 921

10.1086/303069

10.1109/TPAMI.1984.4767596

10.1182/blood.V97.7.2053

10.1038/7687

Ip E. H. S.1994Using the stochastic EM estimator in the presence of missing data ‐ theory and applications. Department of Biostatistics Stanford University .

10.1038/84867

10.1126/science.220.4598.671

10.1093/hmg/ddg013

Lalouel J.1981GEMINI: a computed program for optimization of general nonlinear functions. University of Utah Salt Lake City ; Department of Medical Biophysics and Computing ; Tech rep 14.

10.1046/j.1469-1809.2001.6520189.x

10.1002/ajmg.10200

10.1086/344347

10.1101/gr.194801

10.1093/biomet/88.1.281

10.1214/ss/1177010269

10.1080/01621459.1991.10475130

10.1093/biomet/87.1.113

10.1080/01621459.1996.10476908

10.1086/338688

10.1002/gepi.0197

10.1038/sj.ejhg.5200847

10.1086/319501

Tiret L., 1991, Testing for association between disease and linked marker loci: a log‐linear model analysis, Am J Hum Genet, 48, 926

10.1093/hmg/11.4.419

Tiret L., 1992, Evidence, from combined segregation and linkage analysis, that a variant of the angiotensin I‐converting enzyme (ACE) gene controls plasma ACE levels, Am J Hum Genet, 51, 197

10.1093/hmg/11.17.2015

10.1086/302279

Van Laarhoven P. J. M.&Aarts E. H. L.1987Simulated Annealing: Theory and Applications Reidel: Dordrecht .

Villard E., 1996, Identification of new polymorphisms of the angiotensin I‐converting enzyme (ACE) gene, and study of their relationship to plasma ACE levels by two‐QTL segregation‐linkage analysis, Am J Hum Genet, 58, 1268

10.1093/biomet/85.4.935

10.1080/01621459.1990.10474930

10.1007/s00439-001-0656-4

10.1038/35002251

10.1159/000057986

10.1159/000048602