Nội dung được dịch bởi AI, chỉ mang tính chất tham khảo
Mô Hình Hỗn Hợp Bayes Cho Các Phân Phối Điều Kiện Đa Biến
Tóm tắt
Chúng tôi trình bày một mô hình hỗn hợp Bayes để ước lượng phân phối đồng thời của dữ liệu hợp nhất có thứ tự, danh nghĩa và liên tục, dựa trên một tập hợp các biến cố định. Chiến lược mô hình hóa được thúc đẩy bởi các bối cảnh ứng dụng trong marketing và khoa học xã hội, đặc biệt là tích hợp dữ liệu và phân tích mẫu phân tầng hoặc mẫu định mức. Mô hình sử dụng nhân hỗn hợp bình phương đa biến và nhân hỗn hợp phân loại cho các biến ngẫu nhiên. Nó tạo ra sự phụ thuộc giữa các biến ngẫu nhiên và biến cố định thông qua các nhân hỗn hợp bình thường đa biến và qua một quá trình Dirichlet địa phương bị cắt bỏ. Điều này khuyến khích những quan sát có giá trị tương tự với các biến cố định chia sẻ các thành phần hỗn hợp. Chúng tôi minh họa việc sử dụng mô hình cho việc lấp đầy dữ liệu thiếu, đặc biệt là tích hợp dữ liệu của hai cuộc khảo sát, và cho phân tích mẫu phân tầng hoặc mẫu định mức. Ví dụ tích hợp dữ liệu cho thấy rằng mô hình có thể ước lượng các mối quan hệ tiềm ẩn trong dữ liệu và các phân phối của các giá trị thiếu một cách chính xác hơn so với một số phương pháp khác, bao gồm cả một mô hình hỗn hợp được áp dụng cho các biến ngẫu nhiên và biến cố định một cách đồng thời. Chúng tôi cũng sử dụng mô hình để phân tích hành vi đọc sách của người tiêu dùng từ một mẫu định mức, tức là một mẫu mà phân phối thực nghiệm của một số biến được cố định theo thiết kế và do đó không nên được mô hình hóa như là ngẫu nhiên, do nhà xuất bản sách HarperCollins thực hiện.
Từ khóa
#Mô hình hỗn hợp Bayes #Phân phối điều kiện đa biến #Tích hợp dữ liệu #Hành vi đọc sách #Mẫu phân tầng #Mẫu định mứcTài liệu tham khảo
Banerjee A, Murray J, Dunson D (2013) Bayesian learning of joint distributions of objects. In: Proceedings of the 16th international conference on artificial intelligence and statistics
citation_journal_title=Can J Stat; citation_title=Bayesian nonparametric multivariate ordinal regression; citation_author=J Bao, TE Hanson; citation_volume=43; citation_publication_date=2015; citation_pages=337-357; citation_id=CR2
citation_journal_title=IEEE Trans Neural Netw; citation_title=Using mutual information for selecting features in supervised neural net learning; citation_author=R Battiti; citation_volume=5; citation_publication_date=1994; citation_pages=537-550; citation_id=CR3
citation_journal_title=Ann Inst Stat Math; citation_title=The local Dirichlet process; citation_author=Y Chung, D Dunson; citation_volume=63; citation_publication_date=2011; citation_pages=59-80; citation_id=CR4
Cocotas A (2012) Young women are the most valuable mobile ad demographic.
www.businessinsider.com/young-women-are-most-valuable-mobile-ad-demographic-2012-2
citation_journal_title=J Am Stat Assoc; citation_title=An ANOVA model for dependent random measures; citation_author=M Iorio, P Müller, G Rosner, S MacEachern; citation_volume=99; citation_publication_date=2004; citation_pages=205-215; citation_id=CR6
citation_journal_title=J Comput Gr Stat; citation_title=Bayesian nonparametric modeling for multivariate ordinal regression; citation_author=M DeYoreo, A Kottas; citation_volume=27; citation_publication_date=2018; citation_pages=71-84; citation_id=CR7
Ding C, Peng H (2003) Minimum redundancy feature selection from microarray gene expression data. In: Proceedings of the 2003 IEEE, pp 523–528
citation_journal_title=R Package Version; citation_title=StatMatch: Statistical Matching; citation_author=M D’Orazio; citation_volume=1; citation_issue=2; citation_publication_date=2015; citation_pages=3; citation_id=CR9
citation_title=Statistical matching: theory and practice; citation_publication_date=2006; citation_id=CR10; citation_author=M D’Orazio; citation_author=M Zio; citation_author=M Scanu; citation_publisher=Wiley
citation_journal_title=Bayesian Stat; citation_title=Nonparametric Bayes regression and classication through mixtures of product kernels; citation_author=D Dunson, A Bhattacharya; citation_volume=9; citation_publication_date=2010; citation_pages=145-164; citation_id=CR11
citation_journal_title=Biometrika; citation_title=Kernel stick-breaking processes; citation_author=D Dunson, J Park; citation_volume=95; citation_publication_date=2008; citation_pages=307-323; citation_id=CR12
citation_journal_title=J Am Stat Assoc; citation_title=Nonparametric Bayes modeling of multivariate categorical data; citation_author=D Dunson, C Xing; citation_volume=104; citation_publication_date=2009; citation_pages=1042-1051; citation_id=CR13
citation_journal_title=Ann Stat; citation_title=Conditional density estimation in a regression setting; citation_author=S Efromovich; citation_volume=35; citation_publication_date=2007; citation_pages=2504-2535; citation_id=CR14
citation_journal_title=IEEE Trans Neural Netw; citation_title=Normalized mutual information feature selection; citation_author=P Eztévez, M Tesmer, J Zurada; citation_volume=20; citation_publication_date=2009; citation_pages=189-201; citation_id=CR15
citation_journal_title=Ann Appl Stat; citation_title=Categorical data fusion using auxiliary information; citation_author=B Fosdick, M DeYoreo, J Reiter; citation_volume=10; citation_publication_date=2016; citation_pages=1907-1929; citation_id=CR16
citation_journal_title=J Mark Res; citation_title=A direct approach to data fusion; citation_author=Z Gilula, R McCulloch, P Rossi; citation_volume=43; citation_publication_date=2006; citation_pages=73-83; citation_id=CR17
citation_journal_title=Biometrics; citation_title=A general coefficient of similarity and some of its properties; citation_author=JC Gower; citation_volume=27; citation_publication_date=1971; citation_pages=857-871; citation_id=CR18
citation_journal_title=J Am Stat Assoc; citation_title=Order-based dependent Dirichlet processes; citation_author=J Griffin, M Steel; citation_volume=101; citation_publication_date=2006; citation_pages=179-194; citation_id=CR19
citation_journal_title=J Mach Learn Res; citation_title=An introduction to variable and feature selection; citation_author=I Guyon, A Elisseeff; citation_volume=3; citation_publication_date=2003; citation_pages=1157-1182; citation_id=CR20
citation_journal_title=J Am Stat Assoc; citation_title=Cross-validation and the estimation of conditional probability densities; citation_author=P Hall, J Racine, Q Li; citation_volume=99; citation_publication_date=2004; citation_pages=10151026; citation_id=CR21
citation_journal_title=J Mach Learn Res; citation_title=Dirichlet process mixtures of generalized linear models; citation_author=L Hannah, D Blei, W Powell; citation_volume=1; citation_publication_date=2011; citation_pages=1-33; citation_id=CR22
citation_journal_title=Am Stat; citation_title=Are independent draws necessary for multiple imputation?; citation_author=J Hu, R Mitra, J Reiter; citation_volume=67; citation_publication_date=2013; citation_pages=143-149; citation_id=CR23
citation_journal_title=J Am Stat Assoc; citation_title=Gibbs sampling methods for stick-breaking priors; citation_author=H Ishwaran, L James; citation_volume=96; citation_publication_date=2001; citation_pages=161-173; citation_id=CR24
citation_journal_title=Biometrika; citation_title=Markov chain Monte Carlo in approximate Dirichlet and beta two-parameter process hierarchical models; citation_author=H Ishwaran, M Zarepour; citation_volume=87; citation_publication_date=2000; citation_pages=371-390; citation_id=CR25
Jansen J (2010) Use of the internet in higher-income households.
http://www.pewinternet.org/2010/11/24/use-of-the-internet-in-higher-income-households
citation_journal_title=J Mark Res; citation_title=Statistical data fusion for cross tabulation; citation_author=W Kamakura, M Wedel; citation_volume=34; citation_publication_date=1997; citation_pages=485-498; citation_id=CR27
citation_title=Finding groups in data; citation_publication_date=1990; citation_id=CR28; citation_author=L Kaufman; citation_author=P Rousseeuw; citation_publisher=Wiley
Kiesl H, Rässler S (2006) How valid can data fusion be. In: IAB Discussion Paper, 15
citation_journal_title=J Comput Gr Stat; citation_title=Nonparametric Bayesian modelling for multivariate ordinal data; citation_author=A Kottas, P Müller, F Quintana; citation_volume=14; citation_publication_date=2005; citation_pages=610-625; citation_id=CR30
citation_journal_title=Biometrika; citation_title=Nonparametric Bayes inference on conditional independence; citation_author=T Kunihama, DB Dunson; citation_volume=103; citation_publication_date=2016; citation_pages=35-47; citation_id=CR31
citation_journal_title=Stat Probab Lett; citation_title=Nonparametric Bayes modeling with sample survey weights; citation_author=T Kunihama, A Herring, C Halpern, D Dunson; citation_volume=113; citation_publication_date=2016; citation_pages=41-48; citation_id=CR32
Linderman S, Johnson M, Adams R (2015) Dependent multinomial models made easy: Stick-breaking with the Pólya-gamma augmentation. In: Neural information processing systems
citation_title=Regression models for categorical dependent variables using Stata; citation_publication_date=2006; citation_id=CR34; citation_author=S Long; citation_author=J Freese; citation_publisher=Stata Press
Madrigal A (2012) Sorry, young man, you’re not the most important demographic in tech.
http://www.theatlantic.com/technology/archive/2012/06/sorry-young-man-youre-not-the-most-important-demographic-in-tech/258087
citation_title=Data mining and knowledge discovery handbook; citation_publication_date=2010; citation_id=CR36; citation_author=O Maimon; citation_author=L Rokach; citation_publisher=Springer
Minsker S, Srivastava S, Lin L, Dunson D (2016) Robust and scalable Bayes via a median of subset posterior measures. math.ST.
arXiv:1403.2660
citation_journal_title=Biometrika; citation_title=Bayesian curve fitting using multivariate normal mixtures; citation_author=P Müller, A Erkanli, M West; citation_volume=83; citation_publication_date=1996; citation_pages=67-79; citation_id=CR38
citation_journal_title=Bayesian Anal; citation_title=Bayesian nonparametric inference: why and how?; citation_author=P Müller, R Mitra; citation_volume=8; citation_publication_date=2013; citation_pages=269-302; citation_id=CR39
citation_journal_title=Stat Sci; citation_title=Nonparametric Bayesian data analysis; citation_author=P Müller, F Quintana; citation_volume=19; citation_publication_date=2004; citation_pages=95-110; citation_id=CR40
citation_journal_title=J Am Stat Assoc; citation_title=Multiple imputation of missing categorical and continuous values via Bayesian mixture models with local dependence; citation_author=J Murray, J Reiter; citation_volume=111; citation_issue=516; citation_publication_date=2016; citation_pages=1466-1479; citation_id=CR41
citation_journal_title=J Econom; citation_title=Bayesian modeling of joint and conditional distributions; citation_author=A Norets, J Pelenis; citation_volume=168; citation_publication_date=2012; citation_pages=332-346; citation_id=CR42
citation_journal_title=J Off Stat; citation_title=Stop or continue data collection: a nonignorable missing data approach for continuous variables; citation_author=T Paiva, JP Reiter; citation_volume=579–599; citation_publication_date=2017; citation_pages=33; citation_id=CR43
citation_journal_title=J R Stat Soc; citation_title=Bayesian nonparametric models for spatially indexed data of mixed type; citation_author=G Papageorgiou, S Richardson, N Best; citation_volume=77; citation_publication_date=2015; citation_pages=973-999; citation_id=CR44
citation_journal_title=IEEE Trans Pattern Anal Mach Intell; citation_title=Feature selection based on mutual information: criteria of max-dependency, max-relevance, and min-redundancy; citation_author=H Peng, F Long, C Ding; citation_volume=27; citation_publication_date=2005; citation_pages=1226-1238; citation_id=CR45
Rainie L, Zickuhr K, Purcell K, Madden M, Brenner J (2012) The rise of e-reading.
http://libraries.pewinternet.org/2012/04/04/part-2-the-general-reading-habits-of-americans
citation_journal_title=Austrian J Stat; citation_title=Data fusion: identification problems, validity, and multiple imputation; citation_author=S Rässler; citation_volume=33; citation_publication_date=2004; citation_pages=153-171; citation_id=CR47
citation_journal_title=Bayesian Anal; citation_title=Nonparametric Bayesian models through probit stick-breaking processes; citation_author=A Rodriguez, D Dunson; citation_volume=6; citation_publication_date=2011; citation_pages=145-177; citation_id=CR48
citation_title=Multiple imputation for nonresponse in surveys; citation_publication_date=1987; citation_id=CR49; citation_author=D Rubin; citation_publisher=Wiley
Savitsky T, Toth D, Sverchov M (2016) Bayesian estimation under informative sampling. Electron J Stat, To appear
citation_journal_title=Bayesian Anal; citation_title=Incorporating marginal prior information in latent class models; citation_author=T Schifeling, J Reiter; citation_volume=11; citation_publication_date=2016; citation_pages=499-518; citation_id=CR51
citation_journal_title=J Mach Learn Res; citation_title=Nonlinear modeling using Dirichlet process mixtures; citation_author=B Shahbaba, R Neal; citation_volume=10; citation_publication_date=2009; citation_pages=1829-1850; citation_id=CR52
citation_journal_title=Bayesian Anal; citation_title=Bayesian nonparametric weighted sampling inference; citation_author=Y Si, N Pillai, A Gelman; citation_volume=10; citation_publication_date=2015; citation_pages=605-625; citation_id=CR53
citation_title=Credit risk scorecards: developing and implementing intelligent credit scoring; citation_publication_date=2006; citation_id=CR54; citation_author=N Siddiqi; citation_publisher=Wiley
citation_journal_title=J Business Econ Stat; citation_title=A Bayesian nonparametric approach to inference for quantile regression; citation_author=M Taddy, A Kottas; citation_volume=28; citation_publication_date=2010; citation_pages=357-369; citation_id=CR55
van der Putten P, Kok JN, Gupta A (2002) Data fusion through statistical matching. In: Working paper 4342-02, MIT Sloan School of Management
citation_journal_title=J Mach Learn Res; citation_title=Improving prediction from Dirichlet process mixtures via enrichment; citation_author=S Wade, D Dunson, S Perone, L Trippa; citation_volume=15; citation_publication_date=2014; citation_pages=1041-1071; citation_id=CR57
Wang C, Paisley J, Blei D (2011) Online variational inference for the hierarchical Dirichlet process. In: International conference on artificial intelligence and statistics, pp 752–760
Wang X, Dunson D (2014) Parallelizing MCMC via Weierstrass sample. stat.CO.
arXiv:1312.4605
citation_title=Demystifying data fusion—the “why?”, the “how?” and the “wow!”; citation_publication_date=2009; citation_id=CR60; citation_author=G Wicken; citation_author=S Elms; citation_publisher=Tech. rep, Advertising Research Foundation Week of Workshops
