Association for Computing Machinery (ACM)
1931-0145
1931-0153
Cơ quản chủ quản: N/A
Các bài báo tiêu biểu
Đã hơn mười hai năm trôi qua kể từ khi WEKA được phát hành công khai lần đầu tiên. Trong thời gian đó, phần mềm đã được viết lại hoàn toàn từ đầu, phát triển mạnh mẽ và hiện nay đi kèm với một tài liệu về khai thác dữ liệu [35]. Hiện tại, WEKA được chấp nhận rộng rãi trong cả lĩnh vực học thuật và kinh doanh, có một cộng đồng năng động, và đã được tải xuống hơn 1.4 triệu lần kể từ khi được đưa lên Source-Forge vào tháng 4 năm 2000. Bài báo này cung cấp một cái nhìn tổng quan về WEKA workbench, xem xét lịch sử của dự án, và, dựa trên phiên bản ổn định 3.6 gần đây, tóm tắt những gì đã được bổ sung kể từ phiên bản ổn định cuối cùng (Weka 3.4) được phát hành vào năm 2003.
Có nhiều khía cạnh có thể ảnh hưởng đến hiệu suất đạt được bởi các hệ thống học hiện tại. Đã có báo cáo rằng một trong những khía cạnh này liên quan đến sự mất cân bằng lớp, trong đó các ví dụ trong dữ liệu huấn luyện thuộc về một lớp nào đó vượt trội số lượng so với các ví dụ thuộc lớp khác. Trong tình huống này, xảy ra trong dữ liệu thế giới thực mô tả một sự kiện hiếm nhưng quan trọng, hệ thống học có thể gặp khó khăn trong việc học khái niệm liên quan đến lớp thiểu số. Trong nghiên cứu này, chúng tôi thực hiện một đánh giá thực nghiệm rộng rãi với mười phương pháp, trong đó ba phương pháp do các tác giả đề xuất, nhằm giải quyết vấn đề mất cân bằng lớp trong mười ba tập dữ liệu UCI. Các thí nghiệm của chúng tôi cung cấp bằng chứng rằng sự mất cân bằng lớp không làm giảm hiệu suất của các hệ thống học một cách hệ thống. Thực tế, vấn đề dường như liên quan đến việc học với quá ít ví dụ thuộc lớp thiểu số trong bối cảnh có các yếu tố phức tạp khác, chẳng hạn như sự chồng chéo lớp. Hai phương pháp do chúng tôi đề xuất xử lý trực tiếp các điều kiện này, kết hợp một phương pháp tăng mẫu đã biết với các phương pháp làm sạch dữ liệu nhằm tạo ra các cụm lớp được định nghĩa rõ hơn. Các thí nghiệm so sánh của chúng tôi cho thấy, nói chung, các phương pháp tăng mẫu cung cấp kết quả chính xác hơn so với các phương pháp giảm mẫu khi xem xét diện tích dưới đường cong ROC (AUC). Kết quả này dường như mâu thuẫn với các kết quả được công bố trước đó trong tài liệu. Hai phương pháp mà chúng tôi đề xuất, Smote + Tomek và Smote + ENN, đã trình bày kết quả rất tốt cho các tập dữ liệu có số lượng ví dụ dương nhỏ. Hơn nữa, phương pháp tăng mẫu ngẫu nhiên, một phương pháp rất đơn giản, lại rất cạnh tranh so với các phương pháp tăng mẫu phức tạp hơn. Vì các phương pháp tăng mẫu cung cấp kết quả hiệu suất rất tốt, chúng tôi cũng đo lường độ phức tạp cú pháp của các cây quyết định được tạo ra từ dữ liệu đã tăng mẫu. Kết quả của chúng tôi cho thấy rằng các cây này thường phức tạp hơn so với những cây được tạo ra từ dữ liệu gốc. Tăng mẫu ngẫu nhiên thường tạo ra sự gia tăng nhỏ nhất về số lượng quy tắc được tạo ra và Smote + ENN có sự gia tăng nhỏ nhất về số lượng điều kiện trung bình trên mỗi quy tắc, khi được so sánh giữa các phương pháp tăng mẫu được điều tra.
Kernel methods in general and support vector machines in particular have been successful in various learning tasks on data represented in a single table. Much 'real-world' data, however, is structured - it has no natural representation in a single table. Usually, to apply kernel methods to 'real-world' data, extensive pre-processing is performed to embed the data into areal vector space and thus in a single table. This survey describes several approaches of defining positive definite kernels on structured instances directly.
Ensemble analysis is a widely used meta-algorithm for many data mining problems such as classification and clustering. Numerous ensemble-based algorithms have been proposed in the literature for these problems. Compared to the clustering and classification problems, ensemble analysis has been studied in a limited way in the outlier detection literature. In some cases, ensemble analysis techniques have been implicitly used by many outlier analysis algorithms, but the approach is often buried deep into the algorithm and not formally recognized as a general-purpose meta-algorithm. This is in spite of the fact that this problem is rather important in the context of outlier analysis. This paper discusses the various methods which are used in the literature for outlier ensembles and the general principles by which such analysis can be made more effective. A discussion is also provided on how outlier ensembles relate to the ensemble-techniques used commonly for other data mining problems.
The success of a disaster relief and response process is largely dependent on timely and accurate information regarding the status of the disaster, the surrounding environment, and the a ected people. This information is primarily provided by rst responders on-site and can be enhanced by the firsthand reports posted in real-time on social media. Many tools and methods have been developed to automate disaster relief by extracting, analyzing, and visualizing actionable information from social media. However, these methods are not well integrated in the relief and response processes and the relation between the two requires exposition for further advancement. In this survey, we review the new frontier of intelligent disaster relief and response using social media, show stages of disasters which are reflected on social media, establish a connection between proposed methods based on social media and relief efforts by rst responders, and outline pressing challenges and future research directions.
The current tendency in the life sciences to spawn ever growing amounts of high-throughput assays has led to a situation where the interpretation of data and the formulation of hypotheses lag the pace at which information is produced. Although the first generation of statistical algorithms scrutinizing single, large-scale data sets found their way into the biological community, the great challenge to connect their results to existing knowledge still remains. Despite the fairly large number of biological databases that is currently available, a lot of relevant information is found in free-text format (such as textual annotations, scientific abstracts and full publications). In this paper we explore how an