Nội dung được dịch bởi AI, chỉ mang tính chất tham khảo
Mô hình hỗn hợp phi tham số cho dự đoán giá trị di truyền của một đặc điểm định lượng được hỗ trợ bởi bộ gen
Tóm tắt
Một hình thức hồi quy phi tham số Bayes dựa trên các prior quá trình Dirichlet được điều chỉnh để phân tích các đặc điểm định lượng có thể bị ảnh hưởng bởi các dạng hành động gen mật, và trong bối cảnh chọn giống gen thông qua SNP, trong đó mục tiêu chính là dự đoán tín hiệu di truyền trên kiểu hình. Quy trình này nhóm các kiểu gen chưa biết thành các nhóm với các giá trị di truyền khác biệt, nhưng trong một thiết lập mà số lượng nhóm chưa biết trước, khiến cho các phương pháp tiêu chuẩn cho phân tích hỗn hợp hữu hạn không hoạt động. Giả định chính là các tác động di truyền tuân theo một phân phối chưa biết với một “gia đình” cơ sở nào đó, đây là một quá trình bình thường trong các trường hợp được xem xét ở đây. Phân tích Bayes dựa trên bộ mẫu Gibbs tạo ra ước lượng về số lượng nhóm, trung bình hậu phân của các tác động di truyền, một thước đo tính tín nhiệm trong phân phối cơ sở, cũng như ước lượng các tham số của phân phối sau. Quy trình này được minh họa bằng một mô phỏng đại diện cho hai quần thể. Trong quần thể đầu tiên, có 3 QTL chưa biết, với hiệu ứng bổ sung, hiệu ứng thống trị và hiệu ứng tương tác; trong quần thể thứ hai, có 10 QTL với hiệu ứng bổ sung, hiệu ứng thống trị và hiệu ứng tương tác thêm. Trong hai quần thể, các tham số cơ sở được suy diễn chính xác. Mô hình quá trình Dirichlet suy diễn đúng số lượng giá trị di truyền độc nhất trong quần thể đầu tiên, nhưng đã sản xuất một ước tính thấp ở quần thể thứ hai; ở đây, số lượng nhóm thực tế là hơn 900, và mô hình đưa ra ước lượng trung bình hậu khoảng 140, có lẽ do cần có nhiều bản sao kiểu gen hơn cho suy diễn chính xác. Ảnh hưởng đến các suy diễn của phân phối trước của một tham số chính (M), và mức độ sao chép, được kiểm tra thông qua phân tích trọng lượng cơ thể trung bình ở 192 gia đình cùng cha khác mẹ của gà thịt, trong đó mỗi con đực đã được định kiểu cho gần 7.000 SNP. Trong mẫu nhỏ này, người ta phát hiện rằng suy diễn về số lượng nhóm bị ảnh hưởng bởi phân phối trước của M. Đối với một tập hợp các kết hợp tham số của một phân phối trước nhất định, các tác động của trước đã giảm đi khi số lượng mẫu sao chép mỗi kiểu gen được tăng lên. Do đó, mô hình quá trình Dirichlet dường như hữu ích để đánh giá số lượng QTL ảnh hưởng đến đặc điểm: nếu số lượng nhóm được suy diễn nhỏ, có lẽ chỉ một vài QTL mã hóa cho đặc điểm đó. Nếu số lượng nhóm được suy diễn lớn, điều này có thể ám chỉ rằng các mô hình tham số tiêu chuẩn dựa trên phân phối cơ sở có thể đủ. Tuy nhiên, các prior có thể có ảnh hưởng, đặc biệt nếu kích thước mẫu không lớn và nếu chỉ một vài cấu hình kiểu gen có kiểu hình sao chép trong mẫu.
Từ khóa
Tài liệu tham khảo
Antoniak CE (1974) Mixtures of Dirichlet processes with applications to non-parametric problems. Ann Stat 2:1152–1174
Bush CA, MacEachern SN (1996) A semiparametric Bayesian model for randomized block designs. Biometrika 83:275–285
Cockerham CC (1954) An extension of the concept of partitioning hereditary variance for analysis of covariances among relatives when epistasis is present. Genetics 39:859–882
Crow JF, Kimura M (1970) An introduction to population genetics theory. Harper and Row, New York
Dahl DB (2006) Model-Based clustering for expression data via a Dirichlet process mixture model. In: Do KA, Muller P, Vannucci M (eds) Bayesian inference for gene expression and proteomics. Cambridge University Press, Cambridge
De Los Campos G, Gianola D, and ROSA GJM (2009a) Reproducing kernel Hilbert spaces regression: a general framework for genetic evaluation. J Anim Sci 87:1883–1887
De Los Campos G, Naya H, Gianola D, Crossa J, Legarra A, Manfredi E, Weigel K and COTES JM (2009b) Predicting quantitative traits with regression models for dense molecular markers and pedigrees. Genetics 182:375–385
Dempster ER, Lerner IM (1950) Heritability of threshold characters. Genetics 35:212–236
Escobar MD (1994) Estimating normal means with a Dirichlet process prior. J Amer Statist Assoc 89:268–275
Escobar MD, West M (1998) Computing non-parametric hierarchical models. In: Dey D, Müller P, Sinha D (eds) Practical nonparametric and semiparametric bayesian statistics. Springer, New York, pp 1–22
Falconer DS (1965) The inheritance of liability to certain diseases, estimated from the incidence among relatives. Ann Hum Genet 29:51–76
Ferguson TS (1973) A Bayesian analysis of some nonparametric problems. Ann Stat 1:209–230
Foster SD, Verbyla AP, Pitchford WS (2007) Incorporating LASSO effects into a mixed model for QTL detection. J Agric Biol Environ Stat 12:300–314
Gianola D, De Los Campos G (2008) Inferring genetic values for quantitative traits non-parametrically. Genet Res 90:525–540
Gianola D, Foulley JL (1983) Sire evaluation for ordered categorical data with a threshold model. Genet Sel Evol 15:201–223
Gianola D, Simianer H (2006) A Thurstonian model for quantitative genetic analysis of ranks: a Bayesian approach. Genetics 174:1613–1624
Gianola D, van Kaam JBCHM (2008) Reproducing kernel Hilbert spaces methods for genomic assisted prediction of quantitative traits. Genetics 178:2289–2303
Gianola D, Perez-Enciso M, Toro MA (2003) On marker-assisted prediction of genetic value: beyond the ridge. Genetics 163:347–365
Gianola D, Fernando RL, Stella A (2006a) Genomic assisted prediction of genetic value with semi-parametric procedures. Genetics 173:1761–1776
Gianola D, Heringstad B, Ødegård J (2006b) On the quantitative genetics of mixture characters. Genetics 173:2247–2255
Gianola D, de Los Campos G, Hill WG, Manfredi E, Fernando RL (2009) Additive genetic variability and the Bayesian alphabet. Genetics (submitted)
González-recio O, Gianola D, Long N, Weigel KA, ROSA GJM, Avendaño S (2008) Nonparametric methods for incorporating genomic information into genetic evaluations: an application to mortality in broilers. Genetics 178:2305–2313
González-recio O, Gianola D, Rosa GJM, Weigel KA, Avendaño S (2009) Genome-assisted prediction of a quantitative trait in parents and progeny: application to food conversion rate in chickens. Genet Selection Evol (in press)
Hayes BJ, Bowman PJ, Chamberlain AJ, Goddard ME (2009) Genomic selection in dairy cattle: progress and challenges. J Dairy Sci 92:433–443
Hirschhorn JN, Daly MJ (2005) Genome-wide association studies for common diseases and complex traits. Nat Rev Genet 6:95–108
Ibrahim JC, Kleinman KP (1998) Semiparametric Bayesian methods for random effects models. In: Dey D, Müller P, Sinha D (eds) Practical nonparametric and semiparametric Bayesian statistics. Springer, New York
Jannink JL, Wu XL (2004) Estimating allelic number and identity in state of QTLs in interconnected families. Genet Res 81:133–144
Kleinman KP, Ibrahim JG (1998) A semiparametric Bayesian approach to the random effects model. Biometrics 54:921–938
Lee HKH (2004) Bayesian nonparametrics via neural networks. ASA- SIAM, Philadelphia
Long N, Gianola D, Rosa GJM, Weigel KA, Avendaño S (2007) Machine learning classification procedure for selecting SNP s in genomic selection: application to early mortality in broilers. J Anim Breed Genet 124:377–389
MacEachern SN (1994) Estimation of normal means with a conjugate style Dirichlet process prior. Comm Statist Sim 23:727–741
Meuwissen TH, Hayes BJ, Goddard ME (2001) Prediction of total genetic value using genome-wide dense marker maps. Genetics 157:1819–1829
Motsinger–Reif AA, Dudek SM, Hahn LW, Ritchie MD (2008) Comparison of approaches for machine learning optimization of neural networks for detecting gene-gene interactions in genetic epidemiology. Genet Epidemiol 32:325–340
Park T, Casella G (2008) The Bayesian Lasso. J Am Stat Assoc 103:681–686
Searle SR (1971) Linear models. Wiley, New York
Sorensen D, Gianola D (2002) Likelihood, Bayesian, and MCMC methods in quantitative genetics. Springer, New York
Templeton AR (2000) Epistasis and complex traits. In: Wolf JB et al. (ed) Epistasis and the evolutionary process. Oxford University Press, New York, pp 41–57
Tibshirani R (1996) Regression shrinkage and selection via the LASSO. J Roy Stat Soc B 58:267–288
van der Merwe AJ, Pretorius AL (2003) Bayesian estimation in animal breeding using the Dirichlet process prior for correlated random effects. Genet Sel Evol 35:137–158
Van Raden PM (2008) Efficient methods to compute genomic predictions. J Dairy Sci 91:4414–4423
Wang CS, Rutledge JJ, Gianola D (1993) Marginal inferences about variance components in a mixed linear model using Gibbs sampling. Genet Sel Evol 25:41–62
Wang CS, Rutledge JJ, Gianola D (1994) Bayesian analysis of mixed linear models via Gibbs sampling with an application to litter size in Iberian pigs. Genet Sel Evol 26:91–115
West M (1992) Hyperparameter estimation in Dirichlet process mixture models. Technical Report 92-A03, 6 pp, ISDS, Duke University
Xu S (2003) Estimating polygenic effects using markers of the entire genome. Genetics 163:789–801
Yi N, Xu S (2008) Bayesian LASSO for quantitative trait loci mapping. Genetics 179:1045–1055
