THUẬT TOÁN KHAI THÁC TẬP PHỔ BIẾN TỪ CƠ SỞ DỮ LIỆU SỐ LƯỢNG CÓ SỰ PHÂN CẤP CÁC MỤC

Nguyễn Duy Hàm, Võ Đình Bảy, Nguyễn Thị Hồng Minh

Tóm tắt

Khai thác tập phổ biến để tìm mối quan hệ giữa các item (mục) trong cơ sở dữ liệu (CSDL) là bài toán quan trọng trong khai thác dữ liệu. Bên cạnh khai thác tập phổ biến từ các CSDL truyền thống, khai thác tập phổ biến trên CSDL trọng số và CSDL số lượng đã nhận được nhiều quan tâm từ các nhóm nghiên cứu. Tuy nhiên, các nghiên cứu này mới chỉ khai thác trên các CSDL mà các mục không có mối quan hệ nào với nhau. Trong bài báo này, chúng tôi đề xuất bài toán khai thác tập phổ biến trên CSDL số lượng có sự phân cấp item, đồng thời đề xuất thuật toán để giải quyết bài toán này và áp dụng kĩ thuật diffset hai cấu trúc MByS, MBiS trong lưu trữ tidset của các itemset. Kết quả thực nghiệm cho thấy thuật toán sử dụng cấu trúc MBiS hiệu quả nhất về mặt thời gian xử lý.

Từ khóa

#CSDL số lượng #CSDL có sự phân cấp mục #tập phổ biến #itemsets

Tài liệu tham khảo