Lợi ích của hệ số tương quan Matthews (MCC) so với điểm F1 và độ chính xác trong đánh giá phân loại nhị phân
Tóm tắt
Để đánh giá các phân loại nhị phân và ma trận nhầm lẫn của chúng, các nhà nghiên cứu khoa học có thể sử dụng một số tỷ lệ thống kê, tùy theo mục tiêu của cuộc thí nghiệm mà họ đang điều tra. Mặc dù đây là một vấn đề quan trọng trong học máy, nhưng chưa có sự đồng thuận rộng rãi về một chỉ số lựa chọn thống nhất nào. Độ chính xác và điểm F1 được tính toán trên các ma trận nhầm lẫn đã (và vẫn đang) là một trong những chỉ số phổ biến nhất được áp dụng trong các nhiệm vụ phân loại nhị phân. Tuy nhiên, những đo lường thống kê này có thể một cách nguy hiểm cho thấy kết quả phồng lên quá lạc quan, đặc biệt là trên các tập dữ liệu không cân bằng.
Thay vào đó, hệ số tương quan Matthews (MCC) là một tỷ lệ thống kê đáng tin cậy hơn, chỉ sản xuất điểm số cao nếu dự đoán đạt kết quả tốt trong tất cả bốn loại trong ma trận nhầm lẫn (các dương đúng, các âm sai, các âm đúng và các dương sai), theo tỷ lệ cả về kích thước của các yếu tố dương và kích thước của các yếu tố âm trong tập dữ liệu.
Trong bài viết này, chúng tôi chỉ ra cách mà MCC sản xuất một điểm số thông tin và trung thực hơn trong việc đánh giá phân loại nhị phân so với độ chính xác và điểm F1, bằng cách trước tiên giải thích các tính chất toán học, và sau đó là lợi ích của MCC trong sáu trường hợp sử dụng tổng hợp và trong một kịch bản thực tế về gen. Chúng tôi tin rằng hệ số tương quan Matthews nên được ưu tiên hơn độ chính xác và điểm F1 trong việc đánh giá các nhiệm vụ phân loại nhị phân bởi tất cả các cộng đồng khoa học.
Từ khóa
Tài liệu tham khảo
