Thuật toán Đa Lần cho Khai Thác Quy Tắc Liên Kết trong Cơ Sở Dữ Liệu Văn Bản

Knowledge and Information Systems - Tập 3 - Trang 168-183 - 2001
John D. Holt1, Soon M. Chung1
1Department of Computer Science and Engineering, Wright State University, Dayton, Ohio, USA, , US

Tóm tắt

Trong bài báo này, chúng tôi đề xuất hai thuật toán mới nhằm khai thác các quy tắc liên kết giữa các từ trong cơ sở dữ liệu văn bản. Đặc điểm của cơ sở dữ liệu văn bản khá khác biệt so với cơ sở dữ liệu giao dịch bán lẻ, và các thuật toán khai thác hiện có không thể xử lý hiệu quả cơ sở dữ liệu văn bản do số lượng tập hợp mục (tức là các từ) cần được đếm là rất lớn. Hai thuật toán khai thác nổi tiếng, thuật toán Apriori và thuật toán Băm Trực Tiếp và Cắt Tỉa (DHP), được đánh giá trong bối cảnh khai thác cơ sở dữ liệu văn bản và được so sánh với hai thuật toán mới được đề xuất có tên là Thuật toán Đa Lần Apriori (M-Apriori) và Thuật toán Đa Lần DHP (M-DHP). Đã được chỉ ra rằng các thuật toán đề xuất có hiệu suất tốt hơn cho các cơ sở dữ liệu văn bản lớn.

Từ khóa

#khai thác quy tắc liên kết #cơ sở dữ liệu văn bản #thuật toán Apriori #thuật toán DHP #thuật toán Đa Lần