Mô hình hỗn hợp phi tham số cho dự đoán giá trị di truyền của một đặc điểm định lượng được hỗ trợ bởi bộ gen

Springer Science and Business Media LLC - Tập 138 - Trang 959-977 - 2010
Eduardo Manfredi1, Daniel Gianola2,3,1,4, Henner Simianer4, Xiao-Lin Wu2
1Institut National de la Recherche Agronomique, UR631 Station d’Amélioration, Castanet-Tolosan, France
2Department of Animal Sciences and Department of Dairy Science, University of Wisconsin-Madison, Madison, USA
3Department of Animal and Aquacultural Sciences, Norwegian University of Life Sciences, Ås, Norway
4Department of Animal Sciences, Georg-August-Universität, Göttingen, Germany

Tóm tắt

Một hình thức hồi quy phi tham số Bayes dựa trên các prior quá trình Dirichlet được điều chỉnh để phân tích các đặc điểm định lượng có thể bị ảnh hưởng bởi các dạng hành động gen mật, và trong bối cảnh chọn giống gen thông qua SNP, trong đó mục tiêu chính là dự đoán tín hiệu di truyền trên kiểu hình. Quy trình này nhóm các kiểu gen chưa biết thành các nhóm với các giá trị di truyền khác biệt, nhưng trong một thiết lập mà số lượng nhóm chưa biết trước, khiến cho các phương pháp tiêu chuẩn cho phân tích hỗn hợp hữu hạn không hoạt động. Giả định chính là các tác động di truyền tuân theo một phân phối chưa biết với một “gia đình” cơ sở nào đó, đây là một quá trình bình thường trong các trường hợp được xem xét ở đây. Phân tích Bayes dựa trên bộ mẫu Gibbs tạo ra ước lượng về số lượng nhóm, trung bình hậu phân của các tác động di truyền, một thước đo tính tín nhiệm trong phân phối cơ sở, cũng như ước lượng các tham số của phân phối sau. Quy trình này được minh họa bằng một mô phỏng đại diện cho hai quần thể. Trong quần thể đầu tiên, có 3 QTL chưa biết, với hiệu ứng bổ sung, hiệu ứng thống trị và hiệu ứng tương tác; trong quần thể thứ hai, có 10 QTL với hiệu ứng bổ sung, hiệu ứng thống trị và hiệu ứng tương tác thêm. Trong hai quần thể, các tham số cơ sở được suy diễn chính xác. Mô hình quá trình Dirichlet suy diễn đúng số lượng giá trị di truyền độc nhất trong quần thể đầu tiên, nhưng đã sản xuất một ước tính thấp ở quần thể thứ hai; ở đây, số lượng nhóm thực tế là hơn 900, và mô hình đưa ra ước lượng trung bình hậu khoảng 140, có lẽ do cần có nhiều bản sao kiểu gen hơn cho suy diễn chính xác. Ảnh hưởng đến các suy diễn của phân phối trước của một tham số chính (M), và mức độ sao chép, được kiểm tra thông qua phân tích trọng lượng cơ thể trung bình ở 192 gia đình cùng cha khác mẹ của gà thịt, trong đó mỗi con đực đã được định kiểu cho gần 7.000 SNP. Trong mẫu nhỏ này, người ta phát hiện rằng suy diễn về số lượng nhóm bị ảnh hưởng bởi phân phối trước của M. Đối với một tập hợp các kết hợp tham số của một phân phối trước nhất định, các tác động của trước đã giảm đi khi số lượng mẫu sao chép mỗi kiểu gen được tăng lên. Do đó, mô hình quá trình Dirichlet dường như hữu ích để đánh giá số lượng QTL ảnh hưởng đến đặc điểm: nếu số lượng nhóm được suy diễn nhỏ, có lẽ chỉ một vài QTL mã hóa cho đặc điểm đó. Nếu số lượng nhóm được suy diễn lớn, điều này có thể ám chỉ rằng các mô hình tham số tiêu chuẩn dựa trên phân phối cơ sở có thể đủ. Tuy nhiên, các prior có thể có ảnh hưởng, đặc biệt nếu kích thước mẫu không lớn và nếu chỉ một vài cấu hình kiểu gen có kiểu hình sao chép trong mẫu.

Từ khóa


Tài liệu tham khảo

Antoniak CE (1974) Mixtures of Dirichlet processes with applications to non-parametric problems. Ann Stat 2:1152–1174 Bush CA, MacEachern SN (1996) A semiparametric Bayesian model for randomized block designs. Biometrika 83:275–285 Cockerham CC (1954) An extension of the concept of partitioning hereditary variance for analysis of covariances among relatives when epistasis is present. Genetics 39:859–882 Crow JF, Kimura M (1970) An introduction to population genetics theory. Harper and Row, New York Dahl DB (2006) Model-Based clustering for expression data via a Dirichlet process mixture model. In: Do KA, Muller P, Vannucci M (eds) Bayesian inference for gene expression and proteomics. Cambridge University Press, Cambridge De Los Campos G, Gianola D, and ROSA GJM (2009a) Reproducing kernel Hilbert spaces regression: a general framework for genetic evaluation. J Anim Sci 87:1883–1887 De Los Campos G, Naya H, Gianola D, Crossa J, Legarra A, Manfredi E, Weigel K and COTES JM (2009b) Predicting quantitative traits with regression models for dense molecular markers and pedigrees. Genetics 182:375–385 Dempster ER, Lerner IM (1950) Heritability of threshold characters. Genetics 35:212–236 Escobar MD (1994) Estimating normal means with a Dirichlet process prior. J Amer Statist Assoc 89:268–275 Escobar MD, West M (1998) Computing non-parametric hierarchical models. In: Dey D, Müller P, Sinha D (eds) Practical nonparametric and semiparametric bayesian statistics. Springer, New York, pp 1–22 Falconer DS (1965) The inheritance of liability to certain diseases, estimated from the incidence among relatives. Ann Hum Genet 29:51–76 Ferguson TS (1973) A Bayesian analysis of some nonparametric problems. Ann Stat 1:209–230 Foster SD, Verbyla AP, Pitchford WS (2007) Incorporating LASSO effects into a mixed model for QTL detection. J Agric Biol Environ Stat 12:300–314 Gianola D, De Los Campos G (2008) Inferring genetic values for quantitative traits non-parametrically. Genet Res 90:525–540 Gianola D, Foulley JL (1983) Sire evaluation for ordered categorical data with a threshold model. Genet Sel Evol 15:201–223 Gianola D, Simianer H (2006) A Thurstonian model for quantitative genetic analysis of ranks: a Bayesian approach. Genetics 174:1613–1624 Gianola D, van Kaam JBCHM (2008) Reproducing kernel Hilbert spaces methods for genomic assisted prediction of quantitative traits. Genetics 178:2289–2303 Gianola D, Perez-Enciso M, Toro MA (2003) On marker-assisted prediction of genetic value: beyond the ridge. Genetics 163:347–365 Gianola D, Fernando RL, Stella A (2006a) Genomic assisted prediction of genetic value with semi-parametric procedures. Genetics 173:1761–1776 Gianola D, Heringstad B, Ødegård J (2006b) On the quantitative genetics of mixture characters. Genetics 173:2247–2255 Gianola D, de Los Campos G, Hill WG, Manfredi E, Fernando RL (2009) Additive genetic variability and the Bayesian alphabet. Genetics (submitted) González-recio O, Gianola D, Long N, Weigel KA, ROSA GJM, Avendaño S (2008) Nonparametric methods for incorporating genomic information into genetic evaluations: an application to mortality in broilers. Genetics 178:2305–2313 González-recio O, Gianola D, Rosa GJM, Weigel KA, Avendaño S (2009) Genome-assisted prediction of a quantitative trait in parents and progeny: application to food conversion rate in chickens. Genet Selection Evol (in press) Hayes BJ, Bowman PJ, Chamberlain AJ, Goddard ME (2009) Genomic selection in dairy cattle: progress and challenges. J Dairy Sci 92:433–443 Hirschhorn JN, Daly MJ (2005) Genome-wide association studies for common diseases and complex traits. Nat Rev Genet 6:95–108 Ibrahim JC, Kleinman KP (1998) Semiparametric Bayesian methods for random effects models. In: Dey D, Müller P, Sinha D (eds) Practical nonparametric and semiparametric Bayesian statistics. Springer, New York Jannink JL, Wu XL (2004) Estimating allelic number and identity in state of QTLs in interconnected families. Genet Res 81:133–144 Kleinman KP, Ibrahim JG (1998) A semiparametric Bayesian approach to the random effects model. Biometrics 54:921–938 Lee HKH (2004) Bayesian nonparametrics via neural networks. ASA- SIAM, Philadelphia Long N, Gianola D, Rosa GJM, Weigel KA, Avendaño S (2007) Machine learning classification procedure for selecting SNP s in genomic selection: application to early mortality in broilers. J Anim Breed Genet 124:377–389 MacEachern SN (1994) Estimation of normal means with a conjugate style Dirichlet process prior. Comm Statist Sim 23:727–741 Meuwissen TH, Hayes BJ, Goddard ME (2001) Prediction of total genetic value using genome-wide dense marker maps. Genetics 157:1819–1829 Motsinger–Reif AA, Dudek SM, Hahn LW, Ritchie MD (2008) Comparison of approaches for machine learning optimization of neural networks for detecting gene-gene interactions in genetic epidemiology. Genet Epidemiol 32:325–340 Park T, Casella G (2008) The Bayesian Lasso. J Am Stat Assoc 103:681–686 Searle SR (1971) Linear models. Wiley, New York Sorensen D, Gianola D (2002) Likelihood, Bayesian, and MCMC methods in quantitative genetics. Springer, New York Templeton AR (2000) Epistasis and complex traits. In: Wolf JB et al. (ed) Epistasis and the evolutionary process. Oxford University Press, New York, pp 41–57 Tibshirani R (1996) Regression shrinkage and selection via the LASSO. J Roy Stat Soc B 58:267–288 van der Merwe AJ, Pretorius AL (2003) Bayesian estimation in animal breeding using the Dirichlet process prior for correlated random effects. Genet Sel Evol 35:137–158 Van Raden PM (2008) Efficient methods to compute genomic predictions. J Dairy Sci 91:4414–4423 Wang CS, Rutledge JJ, Gianola D (1993) Marginal inferences about variance components in a mixed linear model using Gibbs sampling. Genet Sel Evol 25:41–62 Wang CS, Rutledge JJ, Gianola D (1994) Bayesian analysis of mixed linear models via Gibbs sampling with an application to litter size in Iberian pigs. Genet Sel Evol 26:91–115 West M (1992) Hyperparameter estimation in Dirichlet process mixture models. Technical Report 92-A03, 6 pp, ISDS, Duke University Xu S (2003) Estimating polygenic effects using markers of the entire genome. Genetics 163:789–801 Yi N, Xu S (2008) Bayesian LASSO for quantitative trait loci mapping. Genetics 179:1045–1055