Cải thiện hiệu suất phân loại báo cáo lỗi bằng cách sử dụng mô hình sinh tài liệu dựa trên trí tuệ nhân tạo
Tóm tắt
Trí tuệ nhân tạo là một trong những công nghệ chính để phát triển cuộc cách mạng công nghiệp lần thứ tư. Công nghệ này cũng có tác động đáng kể đến các chuyên gia phần mềm, những người luôn nỗ lực đạt được phát triển phần mềm chất lượng cao bằng cách sửa các loại lỗi phần mềm khác nhau. Trong quá trình phát triển và bảo trì phần mềm, lỗi phần mềm là yếu tố chính có thể ảnh hưởng đến chi phí và thời gian giao hàng phần mềm. Để sửa lỗi phần mềm một cách hiệu quả, các kho lưu trữ lỗi mở được sử dụng để nhận diện các báo cáo lỗi và phân loại, ưu tiên các báo cáo được giao cho các nhà phát triển phần mềm phù hợp nhất dựa trên mức độ quan tâm và chuyên môn của họ. Do thiếu tài nguyên như thời gian và nhân lực, quá trình phân loại báo cáo lỗi này cực kỳ quan trọng trong phát triển phần mềm. Để cải thiện hiệu suất phân loại báo cáo lỗi, nhiều nghiên cứu đã tập trung vào việc sử dụng phân phối Dirichlet tiềm ẩn (LDA) kết hợp với k láng giềng gần nhất hoặc máy vector hỗ trợ. Mặc dù các phương pháp hiện có đã cải thiện độ chính xác của phân loại lỗi, nhưng chúng thường gây ra xung đột giữa các kỹ thuật kết hợp và tạo ra kết quả phân loại sai. Trong nghiên cứu này, chúng tôi đề xuất một phương pháp để cải thiện hiệu suất phân loại báo cáo lỗi bằng cách sử dụng nhiều tập chủ đề dựa trên LDA thông qua việc cải thiện LDA. Phương pháp đề xuất cải thiện các tập chủ đề hiện có của LDA bằng cách xây dựng hai tập chủ đề phụ. Trong thí nghiệm của chúng tôi, chúng tôi đã thu thập báo cáo lỗi từ một hệ thống theo dõi lỗi phổ biến, Bugzilla, cũng như báo cáo lỗi Android, để đánh giá phương pháp đề xuất và chứng minh việc đạt được hai mục tiêu sau: tăng độ chính xác của phân loại báo cáo lỗi và đảm bảo tính tương thích với các phương pháp hiện đại khác.
