Phương pháp phân tích định lượng điểm khuỷu cho số lượng cụm tối ưu trong thuật toán phân cụm

Congming Shi1, Bingtao Wei2, Shuxin Wei2, Wen Wang2, Hai Liu1, Jialei Liu1
1School of Software Engineering, Anyang Normal University, Anyang, 455000, Henan, China
2Faculty of Information Engineering and Automation, Kunming University of Science and Technology, Kunming 650500, Yunnan, China

Tóm tắt

Phân cụm, một phương pháp học máy truyền thống, đóng vai trò quan trọng trong phân tích dữ liệu. Hầu hết các thuật toán phân cụm phụ thuộc vào một số lượng cụm chính xác đã được xác định trước, trong khi trên thực tế, số lượng cụm thường là không thể đoán trước. Mặc dù phương pháp Khuỷu tay là một trong những phương pháp thường được sử dụng để phân biệt số cụm tối ưu, nhưng việc xác định số lượng cụm dựa vào việc nhận diện thủ công các điểm khuỷu tay trên đường cong hình ảnh. Do đó, các nhà phân tích có kinh nghiệm không thể xác định rõ ràng điểm khuỷu tay từ đường cong được vẽ khi đường cong này khá mượt mà. Để giải quyết vấn đề này, một phương pháp phân tích điểm khuỷu tay mới được đề xuất nhằm tạo ra một chỉ số thống kê ước lượng số lượng cụm tối ưu khi phân cụm trên một tập dữ liệu. Đầu tiên, độ trung bình của độ méo được thu được từ phương pháp Khuỷu tay được chuẩn hóa trong khoảng từ 0 đến 10. Thứ hai, các kết quả đã chuẩn hóa được sử dụng để tính toán cosin của các góc giao nhau giữa các điểm khuỷu tay. Thứ ba, cosin của các góc giao nhau đã tính toán và định lý arccosine được sử dụng để tính toán các góc giao nhau giữa các điểm khuỷu tay. Cuối cùng, chỉ số của các góc giao nhau tối thiểu đã được tính toán giữa các điểm khuỷu tay sẽ được sử dụng như một ước lượng cho số lượng cụm tối ưu tiềm năng. Các kết quả thực nghiệm dựa trên các tập dữ liệu mô phỏng và một tập dữ liệu công cộng nổi tiếng (Tập dữ liệu Iris) đã cho thấy số lượng cụm tối ưu được ước lượng từ phương pháp mới đề xuất của chúng tôi cao hơn so với phương pháp Silhouette được sử dụng rộng rãi.

Từ khóa

Tài liệu tham khảo

