Khôi phục dữ liệu bị thiếu và các thống kê được điều chỉnh cho cơ sở dữ liệu hành vi quy mô lớn

Springer Science and Business Media LLC - Tập 43 - Trang 310-330 - 2011
Pierre Courrieu1, Arnaud Rey1
1Laboratoire de Psychologie Cognitive, UMR CNRS 6146, Université de Provence, Centre Saint Charles, Marseille cedex 3, France

Tóm tắt

Bài báo này trình bày một phương pháp mới để giải quyết các vấn đề phát sinh từ dữ liệu bị thiếu trong các cơ sở dữ liệu về hành vi hiệu suất mặt hàng quy mô lớn. Các thống kê hữu ích được điều chỉnh cho dữ liệu bị thiếu được mô tả, và một phương pháp mới để khôi phục dữ liệu bị thiếu được đề xuất. Phương pháp này được áp dụng cho cơ sở dữ liệu Dự án Từ điển Hà Lan vừa được công bố bởi Keuleers, Diependaele, và Brysbaert (Frontiers in Psychology, 1, 174, 2010), cho phép chúng tôi kết luận rằng cơ sở dữ liệu này đáp ứng các điều kiện sử dụng của phương pháp vừa được đề xuất bởi Courrieu, Brand-D’Abrescia, Peereman, Spieler, và Rey (2011) để kiểm tra các mô hình hiệu suất mặt hàng. Hai chương trình ứng dụng bằng mã MATLAB được cung cấp để khôi phục dữ liệu bị thiếu trong các cơ sở dữ liệu và để tính toán các thống kê được điều chỉnh nhằm kiểm tra các mô hình.

Từ khóa

#dữ liệu bị thiếu #khôi phục dữ liệu #thống kê điều chỉnh #cơ sở dữ liệu hành vi #mô hình hiệu suất mặt hàng

Tài liệu tham khảo

Balota, D. A., Cortese, M. J., Sergent-Marshall, S. D., Spieler, D. H., & Yap, M. J. (2004). Visual word recognition of single-syllable words. Journal of Experimental Psychology: General, 133, 283–316. Balota, D. A., Yap, M. J., Cortese, M. J., Hutchison, K. A., Kessler, B., Loftis, B., et al. (2007). The English Lexicon Project. Behavior Research Methods, 39, 445–459. Chen, J., Rao, J. N. K., & Sitter, R. R. (2000). Efficient random imputation for missing data in complex surveys. Statistica Sinica, 10, 1153–1169. Cohen, J., Cohen, P., West, S. G., & Aiken, L. S. (2003). Applied multiple regression/correlation analysis for the behavioral sciences (3rd ed.). London: Erlbaum. Courrieu, P., Brand-D’Abrescia, M., Peereman, R., Spieler, D., & Rey, A. (2011). Validated intraclass correlation statistics to test item performance models. Behavior Research Methods, 43, 37–55. doi:10.3758/s13428-010-0020-5 Faust, M. E., Balota, D. A., Spieler, D. H., & Ferraro, F. R. (1999). Individual differences in information-processing rate and amount: Implications for group differences in response latency. Psychological Bulletin, 125, 777–799. Ferrand, L., New, B., Brysbaert, M., Keuleers, E., Bonin, P., Méot, A., et al. (2010). The French Lexicon Project: Lexical decision data for 38,840 French words and 38,840 pseudowords. Behavior Research Methods, 42, 488–496. Keuleers, E., Diependaele, K., & Brysbaert, M. (2010). Practice effects in large-scale visual word recognition studies: A lexical decision study on 14,000 Dutch mono- and disyllabic words and nonwords. Frontiers in Psychology, 1, 174. doi:10.3389/fpsyg.2010.00174 McGraw, K. O., & Wong, S. P. (1996). Forming inferences about some intraclass correlation coefficients. Psychological Methods, 1, 30–46. Perry, C., Ziegler, J. C., & Zorzi, M. (2010). Beyond single syllables: Large-scale modeling of reading aloud with the Connectionist Dual Process (CDP++) model. Cognitive Psychology, 61, 106–151. doi:10.1016/j.cogpsych.2010.04.001 Rey, A., Brand-d’Abrescia, M., Peereman, R., Spieler, D., & Courrieu, P. (2010, November). The nanopsycholinguistic approach: Item performance in disyllabic word naming. Paper presented at the 51st Annual Meeting of the Psychonomic Society, St Louis. Rey, A., & Courrieu, P. (2010). Accounting for item variance in large-scale databases. Frontiers in Psychology, 1, 200. doi:10.3389/fpsyg.2010.00200 Rey, A., Courrieu, P., Schmidt-Weigand, F., & Jacobs, A. M. (2009). Item performance in visual word recognition. Psychonomic Bulletin & Review, 16, 600–608. Yap, M. J., & Balota, D. A. (2009). Visual word recognition of multisyllabic words. Journal of Memory and Language, 60, 502–529.