Tác động của lỗi phân loại đối với suy diễn thống kê: Phân tích trường hợp với dữ liệu tổng điều tra

Duke University Press - Tập 1 - Trang 42-55 - 1964
Donald J. Bogue1, Edmund M. Murphy1
1University of Chicago, USA

Tóm tắt

Câu hỏi về độ chính xác của dữ liệu thống kê đã gây lo ngại trong một thời gian dài đối với các nhà nhân khẩu học. Năm 1950, Cục Điều tra Dân số Hoa Kỳ đã thực hiện một cuộc khảo sát sau điều tra rộng rãi nhằm mục đích nghiên cứu vấn đề này. Kết quả quan trọng nhất là mặc dù lỗi phân loại thô khá cao ở nhiều danh mục, xu hướng bù đắp cho các lỗi đã khiến cho lỗi ròng tương đối nhỏ. Thật không may, cuộc khảo sát chỉ nghiên cứu những lỗi này ở mức độ ảnh hưởng của chúng tới từng danh mục. Không có nghiên cứu nào về sự tương tác của những lỗi này trong các bảng phân loại chéo. Thực tế rằng các lỗi phân loại có ảnh hưởng gần như không đáng kể trong một danh mục cụ thể không cho phép giả định rằng ảnh hưởng của chúng cũng không đáng kể trong các phân loại chéo. Nghiên cứu này lấy một ví dụ cụ thể từ Tổng điều tra năm 1950, đó là phân loại chéo thu nhập theo trình độ học vấn. Kết quả của cuộc khảo sát được sử dụng để gợi ý cách mà các suy diễn từ bảng này có thể bị biến dạng bởi lỗi phân loại. Một trong những tham số quan trọng của phân tích này, đó là sự tương quan giữa các lỗi trong hai danh mục, không được lập bảng. Các tác giả đã đưa ra ba giả thuyết về sự tương quan này: rằng các lỗi được tương quan một cách ngẫu nhiên, rằng chúng có tương quan dương cao, và rằng chúng có tương quan âm cao. Họ đã suy diễn ba ước lượng về phân bổ "thực tế" của thu nhập theo trình độ học vấn đạt được cho năm 1950 cho toàn quốc. Ba ước lượng này khác biệt một cách đáng kể so với bảng phân loại được công bố trong tổng điều tra. Các tác giả kết luận rằng tương quan của lỗi phân loại có thể ảnh hưởng nghiêm trọng đến các suy diễn từ dữ liệu; rằng lỗi thô không thể bị bỏ qua chỉ vì ảnh hưởng của nó trong các danh mục đơn giản là nhẹ; và rằng một ước lượng về lỗi, bao gồm ước lượng về sự tương quan giữa các lỗi, là một phần thiết yếu trong bất kỳ báo cáo tổng điều tra nào.

Từ khóa


Tài liệu tham khảo

U.S. Bureau of Census,The Current Popula tion Survey Reinterview Program, Technical Paper No.6, 1963, pp. 8–9.