Học tập phân phối cho việc nhận diện ngôn ngữ phản ánh sự tiếp xúc tích lũy với sự phân bố ngữ âm của người nói

Psychonomic Bulletin & Review - Tập 26 - Trang 985-992 - 2019
Rachel M. Theodore1,2, Nicholas R. Monto1,2
1Department of Speech, Language, and Hearing Sciences, University of Connecticut, Storrs, USA
2Connecticut Institute for the Brain and Cognitive Sciences, University of Connecticut, Storrs, USA

Tóm tắt

Việc nhận diện lời nói hiệu quả yêu cầu người nghe duy trì sự căng thẳng tinh tế giữa sự ổn định của cấu trúc ngôn ngữ và tính linh hoạt trong việc điều chỉnh biến đổi trong đầu vào, chẳng hạn như sự khác biệt trong sản xuất lời nói của từng người nói. Việc đạt được sự căng thẳng này có thể được hướng dẫn bởi các cơ chế học tập từ trên xuống, trong đó thông tin từ vựng hạn chế việc diễn giải đầu vào lời nói, và bởi các cơ chế học tập từ dưới lên, mà trong đó thông tin phân phối trong tín hiệu lời nói được sử dụng để tối ưu hóa việc ánh xạ vào các phân loại âm thanh lời nói. Một câu hỏi mở cho các lý thuyết về học tập cảm nhận liên quan đến bản chất của các đại diện được xây dựng cho từng người nói: các đại diện này có phản ánh thời gian tiếp xúc lâu dài, toàn cầu với người nói hay chỉ là một thời gian tiếp xúc ngắn hạn, cục bộ? Nghiên cứu gần đây gợi ý rằng khi kiến thức từ vựng được sử dụng để giải quyết sự sản xuất mơ hồ của một người nói, người nghe bỏ qua kinh nghiệm trước đó với người nói và thay vào đó chỉ dựa vào kinh nghiệm gần đây, một phát hiện đi ngược lại với dự đoán của các mô hình cập nhật niềm tin Bayesian về sự thích nghi cảm nhận. Tại đây, chúng tôi sử dụng một mô hình học tập phân phối trong đó thông tin từ vựng không được yêu cầu rõ ràng để giải quyết đầu vào mơ hồ, nhằm cung cấp một bài kiểm tra bổ sung cho các tài khoản tiếp xúc toàn cầu so với cục bộ. Người nghe hoàn thành hai khối phân loại ngữ âm cho các kích thích khác nhau về thời gian bắt đầu giọng nói, một tín hiệu xác suất cho sự tương phản âm thanh trong các phụ âm dừng tiếng Anh. Trong mỗi khối, hai phân phối đã được trình bày, một phân định mạnh /g/ và một phân định mạnh /k/. Trên hai khối, biến thiên của các phân phối đã được điều chỉnh để là hẹp hoặc rộng. Việc thao túng quan trọng là thứ tự của hai khối; một nửa người nghe được tiếp xúc trước với các phân phối hẹp sau đó là các phân phối rộng, với thứ tự đảo ngược cho một nửa còn lại của người nghe. Kết quả cho thấy cho các thử nghiệm trước, độ dốc xác định mạnh mẽ hơn cho nhóm hẹp-rộng so với nhóm rộng-hẹp, nhưng sự khác biệt này đã giảm bớt cho các thử nghiệm sau. Sự hội tụ giữa các nhóm được điều khiển bởi một sự không đối xứng trong quá trình học giữa hai thứ tự sao cho chỉ những người trong nhóm hẹp-rộng cho thấy độ dốc di chuyển trong quá trình tiếp xúc, một mẫu mà được phản ánh bởi các mô phỏng tính toán mà trong đó các thống kê phân phối của người nói hiện tại đã được tích hợp với kinh nghiệm trước đó với tiếng Anh. Mẫu kết quả này gợi ý rằng người nghe không bỏ qua tất cả kinh nghiệm trước đó với người nói, và thay vào đó sử dụng sự tiếp xúc tích lũy để hướng dẫn các quyết định ngữ âm, điều này mở ra khả năng rằng việc thích nghi với chữ ký ngữ âm của một người nói bao gồm việc duy trì các đại diện phản ánh kinh nghiệm toàn cầu.

Từ khóa

#học tập phân phối #nhận diện ngôn ngữ #ngữ âm #người nói #tiếp xúc tích lũy

Tài liệu tham khảo

Clayards, M., Tanenhaus, M. K., Aslin, R. N., & Jacobs, R. A. (2008). Perception of speech reflects optimal use of probabilistic speech cues. Cognition, 108, 804-809. Hillenbrand, J., Getty, L. A., Clark, M. J., & Wheeler, K. (1995). Acoustic characteristics of American English vowels. Journal of the Acoustical Society of America, 97(5), 3099-3111. Holt, L. L. (2005). Temporally nonadjacent nonlinguistic sounds affect speech categorization. Psychological Science, 16(4), 305-312. Idemaru, K., & Holt, L. L. (2011). Word recognition reflects dimension-based statistical learning. Journal of Experimental Psychology: Human Perception and Performance, 37(6), 1939-1956. Kleinschmidt, D. F. (2017). beliefupdatr: Belief updating for phonetic adaptation. R package version 0.0.3. Kleinschmidt, D. F. (2018). Structure in talker variability: How much is there and how much can it help? Language, Cognition and Neuroscience. https://doi.org/10.1080/23273798.2018.1500698 Kleinschmidt, D. F., & Jaeger, T. F. (2015). Robust speech perception: Recognize the familiar, generalize to the similar, and adapt to the novel. Psychological Review, 122, 148-203. Kleinschmidt, D. F., & Jaeger, T. F. (2016). What do you expect from an unfamiliar talker? In A. Papafragou, D. Grodner, D. Mirman, & J. C. Trueswell (Eds.), Proceedings of the 38th Annual Meeting of the Cognitive Science Society (pp. 2351-2356). Austin, TX: Cognitive Science Society. Kraljic, T., & Samuel, A. G. (2005). Perceptual learning for speech: Is there a return to normal? Cognitive Psychology, 51(2), 141-178. Kraljic, T., Samuel, A. G., & Brennan, S. E. (2008). First impressions and last resorts: How listeners adjust to speaker variability. Psychological Science, 19(4), 332-338. McMurray, B., Aslin, R. N., & Toscano, J. C. (2009). Statistical learning of phonetic categories: Insights from a computational approach. Developmental Science, 12(3), 369-378. Newman, R. S., Clouse, S. A., & Burnham, J. L. (2001). The perceptual consequences of within-talker variability in fricative production. Journal of the Acoustical Society of America, 109, 1181-1196. Norris, D., McQueen, J. M., & Cutler, A. (2003). Perceptual learning in speech. Cognitive Psychology, 47(2), 204-238. Nygaard, L. C., & Pisoni, D. B. (1998). Talker-specific learning in speech perception. Perception & Psychophysics, 60(3), 355-376. Saltzman, D., & Myers, E. (2018). Listeners are maximally flexible in updating phonetic beliefs over time. Psychonomic Bulletin & Review, 25(2), 718-724. Theodore, R. M., & Miller, J. L. (2010). Characteristics of listener sensitivity to talker-specific phonetic detail. Journal of the Acoustical Society of America, 128, 2090-2099. Theodore, R. M., Miller, J. L., & DeSteno, D. (2009). Individual talker differences in voice-onset-time: Contextual influences. Journal of the Acoustical Society of America, 125, 3974-3982. Theodore, R. M., Myers, E. B., & Lomibao, J. A. (2015). Talker-specific influences on phonetic category structure. Journal of the Acoustical Society of America, 138, 1068-1078.