Một thuật toán mới cho phân tích liên kết dựa trên kiểu hình: Thuật toán Stochastic-EM
Tóm tắt
Hiện nay, người ta đã chấp nhận rộng rãi rằng thông tin kiểu hình có thể rất có giá trị trong việc nghiên cứu vai trò của một gen ứng cử trong nguyên nhân của các bệnh phức tạp. Trong trường hợp không có dữ liệu gia đình, các kiểu hình không thể được suy diễn từ kiểu gen, ngoại trừ đối với những cá thể đồng hợp tử tại tất cả các vị trí hoặc dị hợp tử chỉ tại một vị trí. Do đó, cần có các phương pháp thống kê để suy diễn kiểu hình từ dữ liệu kiểu gen và kiểm tra sự liên kết của chúng với một kiểu hình quan tâm. Hai thuật toán tối đa hóa khả năng (maximum likelihood) thường được sử dụng trong bối cảnh các nghiên cứu liên kết dựa trên kiểu hình, đó là thuật toán Newton-Raphson (NR) và thuật toán Dự đoán-Tối đa hóa (Expectation-Maximisation, EM). Để vượt qua những hạn chế của cả hai thuật toán, bao gồm việc hội tụ vào các cực địa phương và điểm yên ngựa, chúng tôi đã mô tả cách mà một phiên bản ngẫu nhiên của thuật toán EM, được gọi là SEM, có thể được sử dụng để kiểm tra sự liên kết giữa kiểu hình và kiểu gen. Các thuộc tính thống kê của thuật toán SEM đã được nghiên cứu thông qua một nghiên cứu mô phỏng cho một loạt các tình huống thực tiễn, bao gồm các mẫu nhỏ/lớn và kiểu hình hiếm/thường gặp, và các kết quả đã được so sánh với những gì thu được từ thuật toán NR tiêu chuẩn. Nghiên cứu mô phỏng của chúng tôi chỉ ra rằng thuật toán SEM cung cấp kết quả tương tự như những gì của thuật toán NR, làm cho thuật toán SEM trở nên thú vị cho phân tích liên kết dựa trên kiểu hình, đặc biệt là khi số lượng các đa hình (polymorphisms) là khá lớn.
Từ khóa
Tài liệu tham khảo
Broniatowski M., 1983, Reconnaissance de mélanges de densités par un algorithme d'apprentissage probabiliste, Data Anal Informatics, 3, 359
Celeux G., 1985, The SEM algorithm: a probabilistic teacher algorithm derived from the EM algorithm for the mixture problem, Comp Statist Quart, 2, 73
Excoffier L., 1995, Maximum‐likelihood estimation of molecular haplotype frequencies in a diploid population, Mol Biol Evol, 12, 921
Ip E. H. S.1994Using the stochastic EM estimator in the presence of missing data ‐ theory and applications. Department of Biostatistics Stanford University .
Lalouel J.1981GEMINI: a computed program for optimization of general nonlinear functions. University of Utah Salt Lake City ; Department of Medical Biophysics and Computing ; Tech rep 14.
Tiret L., 1991, Testing for association between disease and linked marker loci: a log‐linear model analysis, Am J Hum Genet, 48, 926
Tiret L., 1992, Evidence, from combined segregation and linkage analysis, that a variant of the angiotensin I‐converting enzyme (ACE) gene controls plasma ACE levels, Am J Hum Genet, 51, 197
Van Laarhoven P. J. M.&Aarts E. H. L.1987Simulated Annealing: Theory and Applications Reidel: Dordrecht .
Villard E., 1996, Identification of new polymorphisms of the angiotensin I‐converting enzyme (ACE) gene, and study of their relationship to plasma ACE levels by two‐QTL segregation‐linkage analysis, Am J Hum Genet, 58, 1268