Mô Hình Hỗn Hợp Bayes Cho Các Phân Phối Điều Kiện Đa Biến

Journal of Statistical Theory and Practice - Tập 14 Số 3 - Trang 1-27 - 2020
DeYoreo, Maria1, Reiter, Jerome P.2
1RAND Corporation, Santa Monica, USA
2Duke University, Durham, USA

Tóm tắt

Chúng tôi trình bày một mô hình hỗn hợp Bayes để ước lượng phân phối đồng thời của dữ liệu hợp nhất có thứ tự, danh nghĩa và liên tục, dựa trên một tập hợp các biến cố định. Chiến lược mô hình hóa được thúc đẩy bởi các bối cảnh ứng dụng trong marketing và khoa học xã hội, đặc biệt là tích hợp dữ liệu và phân tích mẫu phân tầng hoặc mẫu định mức. Mô hình sử dụng nhân hỗn hợp bình phương đa biến và nhân hỗn hợp phân loại cho các biến ngẫu nhiên. Nó tạo ra sự phụ thuộc giữa các biến ngẫu nhiên và biến cố định thông qua các nhân hỗn hợp bình thường đa biến và qua một quá trình Dirichlet địa phương bị cắt bỏ. Điều này khuyến khích những quan sát có giá trị tương tự với các biến cố định chia sẻ các thành phần hỗn hợp. Chúng tôi minh họa việc sử dụng mô hình cho việc lấp đầy dữ liệu thiếu, đặc biệt là tích hợp dữ liệu của hai cuộc khảo sát, và cho phân tích mẫu phân tầng hoặc mẫu định mức. Ví dụ tích hợp dữ liệu cho thấy rằng mô hình có thể ước lượng các mối quan hệ tiềm ẩn trong dữ liệu và các phân phối của các giá trị thiếu một cách chính xác hơn so với một số phương pháp khác, bao gồm cả một mô hình hỗn hợp được áp dụng cho các biến ngẫu nhiên và biến cố định một cách đồng thời. Chúng tôi cũng sử dụng mô hình để phân tích hành vi đọc sách của người tiêu dùng từ một mẫu định mức, tức là một mẫu mà phân phối thực nghiệm của một số biến được cố định theo thiết kế và do đó không nên được mô hình hóa như là ngẫu nhiên, do nhà xuất bản sách HarperCollins thực hiện.

Từ khóa

#Mô hình hỗn hợp Bayes #Phân phối điều kiện đa biến #Tích hợp dữ liệu #Hành vi đọc sách #Mẫu phân tầng #Mẫu định mức

Tài liệu tham khảo

Banerjee A, Murray J, Dunson D (2013) Bayesian learning of joint distributions of objects. In: Proceedings of the 16th international conference on artificial intelligence and statistics citation_journal_title=Can J Stat; citation_title=Bayesian nonparametric multivariate ordinal regression; citation_author=J Bao, TE Hanson; citation_volume=43; citation_publication_date=2015; citation_pages=337-357; citation_id=CR2 citation_journal_title=IEEE Trans Neural Netw; citation_title=Using mutual information for selecting features in supervised neural net learning; citation_author=R Battiti; citation_volume=5; citation_publication_date=1994; citation_pages=537-550; citation_id=CR3 citation_journal_title=Ann Inst Stat Math; citation_title=The local Dirichlet process; citation_author=Y Chung, D Dunson; citation_volume=63; citation_publication_date=2011; citation_pages=59-80; citation_id=CR4 Cocotas A (2012) Young women are the most valuable mobile ad demographic. www.businessinsider.com/young-women-are-most-valuable-mobile-ad-demographic-2012-2 citation_journal_title=J Am Stat Assoc; citation_title=An ANOVA model for dependent random measures; citation_author=M Iorio, P Müller, G Rosner, S MacEachern; citation_volume=99; citation_publication_date=2004; citation_pages=205-215; citation_id=CR6 citation_journal_title=J Comput Gr Stat; citation_title=Bayesian nonparametric modeling for multivariate ordinal regression; citation_author=M DeYoreo, A Kottas; citation_volume=27; citation_publication_date=2018; citation_pages=71-84; citation_id=CR7 Ding C, Peng H (2003) Minimum redundancy feature selection from microarray gene expression data. In: Proceedings of the 2003 IEEE, pp 523–528 citation_journal_title=R Package Version; citation_title=StatMatch: Statistical Matching; citation_author=M D’Orazio; citation_volume=1; citation_issue=2; citation_publication_date=2015; citation_pages=3; citation_id=CR9 citation_title=Statistical matching: theory and practice; citation_publication_date=2006; citation_id=CR10; citation_author=M D’Orazio; citation_author=M Zio; citation_author=M Scanu; citation_publisher=Wiley citation_journal_title=Bayesian Stat; citation_title=Nonparametric Bayes regression and classication through mixtures of product kernels; citation_author=D Dunson, A Bhattacharya; citation_volume=9; citation_publication_date=2010; citation_pages=145-164; citation_id=CR11 citation_journal_title=Biometrika; citation_title=Kernel stick-breaking processes; citation_author=D Dunson, J Park; citation_volume=95; citation_publication_date=2008; citation_pages=307-323; citation_id=CR12 citation_journal_title=J Am Stat Assoc; citation_title=Nonparametric Bayes modeling of multivariate categorical data; citation_author=D Dunson, C Xing; citation_volume=104; citation_publication_date=2009; citation_pages=1042-1051; citation_id=CR13 citation_journal_title=Ann Stat; citation_title=Conditional density estimation in a regression setting; citation_author=S Efromovich; citation_volume=35; citation_publication_date=2007; citation_pages=2504-2535; citation_id=CR14 citation_journal_title=IEEE Trans Neural Netw; citation_title=Normalized mutual information feature selection; citation_author=P Eztévez, M Tesmer, J Zurada; citation_volume=20; citation_publication_date=2009; citation_pages=189-201; citation_id=CR15 citation_journal_title=Ann Appl Stat; citation_title=Categorical data fusion using auxiliary information; citation_author=B Fosdick, M DeYoreo, J Reiter; citation_volume=10; citation_publication_date=2016; citation_pages=1907-1929; citation_id=CR16 citation_journal_title=J Mark Res; citation_title=A direct approach to data fusion; citation_author=Z Gilula, R McCulloch, P Rossi; citation_volume=43; citation_publication_date=2006; citation_pages=73-83; citation_id=CR17 citation_journal_title=Biometrics; citation_title=A general coefficient of similarity and some of its properties; citation_author=JC Gower; citation_volume=27; citation_publication_date=1971; citation_pages=857-871; citation_id=CR18 citation_journal_title=J Am Stat Assoc; citation_title=Order-based dependent Dirichlet processes; citation_author=J Griffin, M Steel; citation_volume=101; citation_publication_date=2006; citation_pages=179-194; citation_id=CR19 citation_journal_title=J Mach Learn Res; citation_title=An introduction to variable and feature selection; citation_author=I Guyon, A Elisseeff; citation_volume=3; citation_publication_date=2003; citation_pages=1157-1182; citation_id=CR20 citation_journal_title=J Am Stat Assoc; citation_title=Cross-validation and the estimation of conditional probability densities; citation_author=P Hall, J Racine, Q Li; citation_volume=99; citation_publication_date=2004; citation_pages=10151026; citation_id=CR21 citation_journal_title=J Mach Learn Res; citation_title=Dirichlet process mixtures of generalized linear models; citation_author=L Hannah, D Blei, W Powell; citation_volume=1; citation_publication_date=2011; citation_pages=1-33; citation_id=CR22 citation_journal_title=Am Stat; citation_title=Are independent draws necessary for multiple imputation?; citation_author=J Hu, R Mitra, J Reiter; citation_volume=67; citation_publication_date=2013; citation_pages=143-149; citation_id=CR23 citation_journal_title=J Am Stat Assoc; citation_title=Gibbs sampling methods for stick-breaking priors; citation_author=H Ishwaran, L James; citation_volume=96; citation_publication_date=2001; citation_pages=161-173; citation_id=CR24 citation_journal_title=Biometrika; citation_title=Markov chain Monte Carlo in approximate Dirichlet and beta two-parameter process hierarchical models; citation_author=H Ishwaran, M Zarepour; citation_volume=87; citation_publication_date=2000; citation_pages=371-390; citation_id=CR25 Jansen J (2010) Use of the internet in higher-income households. http://www.pewinternet.org/2010/11/24/use-of-the-internet-in-higher-income-households citation_journal_title=J Mark Res; citation_title=Statistical data fusion for cross tabulation; citation_author=W Kamakura, M Wedel; citation_volume=34; citation_publication_date=1997; citation_pages=485-498; citation_id=CR27 citation_title=Finding groups in data; citation_publication_date=1990; citation_id=CR28; citation_author=L Kaufman; citation_author=P Rousseeuw; citation_publisher=Wiley Kiesl H, Rässler S (2006) How valid can data fusion be. In: IAB Discussion Paper, 15 citation_journal_title=J Comput Gr Stat; citation_title=Nonparametric Bayesian modelling for multivariate ordinal data; citation_author=A Kottas, P Müller, F Quintana; citation_volume=14; citation_publication_date=2005; citation_pages=610-625; citation_id=CR30 citation_journal_title=Biometrika; citation_title=Nonparametric Bayes inference on conditional independence; citation_author=T Kunihama, DB Dunson; citation_volume=103; citation_publication_date=2016; citation_pages=35-47; citation_id=CR31 citation_journal_title=Stat Probab Lett; citation_title=Nonparametric Bayes modeling with sample survey weights; citation_author=T Kunihama, A Herring, C Halpern, D Dunson; citation_volume=113; citation_publication_date=2016; citation_pages=41-48; citation_id=CR32 Linderman S, Johnson M, Adams R (2015) Dependent multinomial models made easy: Stick-breaking with the Pólya-gamma augmentation. In: Neural information processing systems citation_title=Regression models for categorical dependent variables using Stata; citation_publication_date=2006; citation_id=CR34; citation_author=S Long; citation_author=J Freese; citation_publisher=Stata Press Madrigal A (2012) Sorry, young man, you’re not the most important demographic in tech. http://www.theatlantic.com/technology/archive/2012/06/sorry-young-man-youre-not-the-most-important-demographic-in-tech/258087 citation_title=Data mining and knowledge discovery handbook; citation_publication_date=2010; citation_id=CR36; citation_author=O Maimon; citation_author=L Rokach; citation_publisher=Springer Minsker S, Srivastava S, Lin L, Dunson D (2016) Robust and scalable Bayes via a median of subset posterior measures. math.ST. arXiv:1403.2660 citation_journal_title=Biometrika; citation_title=Bayesian curve fitting using multivariate normal mixtures; citation_author=P Müller, A Erkanli, M West; citation_volume=83; citation_publication_date=1996; citation_pages=67-79; citation_id=CR38 citation_journal_title=Bayesian Anal; citation_title=Bayesian nonparametric inference: why and how?; citation_author=P Müller, R Mitra; citation_volume=8; citation_publication_date=2013; citation_pages=269-302; citation_id=CR39 citation_journal_title=Stat Sci; citation_title=Nonparametric Bayesian data analysis; citation_author=P Müller, F Quintana; citation_volume=19; citation_publication_date=2004; citation_pages=95-110; citation_id=CR40 citation_journal_title=J Am Stat Assoc; citation_title=Multiple imputation of missing categorical and continuous values via Bayesian mixture models with local dependence; citation_author=J Murray, J Reiter; citation_volume=111; citation_issue=516; citation_publication_date=2016; citation_pages=1466-1479; citation_id=CR41 citation_journal_title=J Econom; citation_title=Bayesian modeling of joint and conditional distributions; citation_author=A Norets, J Pelenis; citation_volume=168; citation_publication_date=2012; citation_pages=332-346; citation_id=CR42 citation_journal_title=J Off Stat; citation_title=Stop or continue data collection: a nonignorable missing data approach for continuous variables; citation_author=T Paiva, JP Reiter; citation_volume=579–599; citation_publication_date=2017; citation_pages=33; citation_id=CR43 citation_journal_title=J R Stat Soc; citation_title=Bayesian nonparametric models for spatially indexed data of mixed type; citation_author=G Papageorgiou, S Richardson, N Best; citation_volume=77; citation_publication_date=2015; citation_pages=973-999; citation_id=CR44 citation_journal_title=IEEE Trans Pattern Anal Mach Intell; citation_title=Feature selection based on mutual information: criteria of max-dependency, max-relevance, and min-redundancy; citation_author=H Peng, F Long, C Ding; citation_volume=27; citation_publication_date=2005; citation_pages=1226-1238; citation_id=CR45 Rainie L, Zickuhr K, Purcell K, Madden M, Brenner J (2012) The rise of e-reading. http://libraries.pewinternet.org/2012/04/04/part-2-the-general-reading-habits-of-americans citation_journal_title=Austrian J Stat; citation_title=Data fusion: identification problems, validity, and multiple imputation; citation_author=S Rässler; citation_volume=33; citation_publication_date=2004; citation_pages=153-171; citation_id=CR47 citation_journal_title=Bayesian Anal; citation_title=Nonparametric Bayesian models through probit stick-breaking processes; citation_author=A Rodriguez, D Dunson; citation_volume=6; citation_publication_date=2011; citation_pages=145-177; citation_id=CR48 citation_title=Multiple imputation for nonresponse in surveys; citation_publication_date=1987; citation_id=CR49; citation_author=D Rubin; citation_publisher=Wiley Savitsky T, Toth D, Sverchov M (2016) Bayesian estimation under informative sampling. Electron J Stat, To appear citation_journal_title=Bayesian Anal; citation_title=Incorporating marginal prior information in latent class models; citation_author=T Schifeling, J Reiter; citation_volume=11; citation_publication_date=2016; citation_pages=499-518; citation_id=CR51 citation_journal_title=J Mach Learn Res; citation_title=Nonlinear modeling using Dirichlet process mixtures; citation_author=B Shahbaba, R Neal; citation_volume=10; citation_publication_date=2009; citation_pages=1829-1850; citation_id=CR52 citation_journal_title=Bayesian Anal; citation_title=Bayesian nonparametric weighted sampling inference; citation_author=Y Si, N Pillai, A Gelman; citation_volume=10; citation_publication_date=2015; citation_pages=605-625; citation_id=CR53 citation_title=Credit risk scorecards: developing and implementing intelligent credit scoring; citation_publication_date=2006; citation_id=CR54; citation_author=N Siddiqi; citation_publisher=Wiley citation_journal_title=J Business Econ Stat; citation_title=A Bayesian nonparametric approach to inference for quantile regression; citation_author=M Taddy, A Kottas; citation_volume=28; citation_publication_date=2010; citation_pages=357-369; citation_id=CR55 van der Putten P, Kok JN, Gupta A (2002) Data fusion through statistical matching. In: Working paper 4342-02, MIT Sloan School of Management citation_journal_title=J Mach Learn Res; citation_title=Improving prediction from Dirichlet process mixtures via enrichment; citation_author=S Wade, D Dunson, S Perone, L Trippa; citation_volume=15; citation_publication_date=2014; citation_pages=1041-1071; citation_id=CR57 Wang C, Paisley J, Blei D (2011) Online variational inference for the hierarchical Dirichlet process. In: International conference on artificial intelligence and statistics, pp 752–760 Wang X, Dunson D (2014) Parallelizing MCMC via Weierstrass sample. stat.CO. arXiv:1312.4605 citation_title=Demystifying data fusion—the “why?”, the “how?” and the “wow!”; citation_publication_date=2009; citation_id=CR60; citation_author=G Wicken; citation_author=S Elms; citation_publisher=Tech. rep, Advertising Research Foundation Week of Workshops