Trích xuất mẫu chuỗi thời gian số dựa trên phương pháp xấp xỉ phân đoạn không đều và chỉ định độ dốc

New Generation Computing - Tập 25 - Trang 213-222 - 2008
Miho Ohsaki1, Hidenao Abe2, Takahira Yamaguchi3
1Doshisha University, Kyoto, Japan
2Shimane University, Shimane, Japan
3Keio University, Yokohama-shi, Japan

Tóm tắt

Bài báo này đề xuất và đánh giá một phương pháp trích xuất các mẫu thú vị từ dữ liệu chuỗi thời gian số, xem xét tính chủ quan của người dùng. Phương pháp được đề xuất thực hiện lấy mẫu không đều trên dữ liệu, bảo tồn các đặc điểm nổi bật theo cảm nhận của người dùng bằng cách sử dụng độ dốc được chỉ định. Nó cũng thực hiện phân mã không đều, bảo tồn các đặc điểm khách quan vốn có của dữ liệu bằng cách sử dụng các phân phối thống kê. Sau đó, phương pháp trích xuất các mẫu đại diện từ dữ liệu đã rời rạc hóa bằng cách sử dụng phân cụm trung bình nhóm. Kết quả thực nghiệm từ các tập dữ liệu chuẩn chỉ ra rằng phương pháp đề xuất không làm suy giảm các đặc điểm khách quan vốn có, vì nó có hiệu suất tương đương với việc phân cụm chuỗi con cơ bản sử dụng thuật toán K-Means. Kết quả từ một tập dữ liệu trong nghiên cứu y tế về viêm gan cho thấy rằng nó đã trích xuất các mẫu thú vị cho một chuyên gia y tế.

Từ khóa

#trích xuất mẫu #chuỗi thời gian #xấp xỉ phân đoạn không đều #độ dốc #phân cụm trung bình nhóm #viêm gan

Tài liệu tham khảo

Das, G., King-Ip, L., Heikki, M., Renganathan, G. and Smyth, P., “Rule Discovery from Time Series,” in Proc. of Int. Conf. on Knowledge Discovery and Data Mining, pp. 16–22, 1998. Berndt, D. J. and Clifford, J., “Using dynamic time warping to find patterns in time series,” in Proc. of AAAI Workshop on Knowledge Discovery in Databases, pp. 359–370, 1994. Hirano, S. and Tsumoto, S., “Mining Similar Temporal Patterns in Long Time-series,” Data and Its Application to Medicine, pp. 219–226, 2002. Yi, B-K. and Faloutsos, C., “Fast Time Sequence Indexing for Arbitrary Lp Norms,” in Proc. of Int. Conf. on Very Large Databases, pp.385–394, 2000. Lin, J., Keogh, E., Lonardi, S. and Patel, P., “Finding Motifs in Time Series,” in Proc. of Workshop on Temporal Data Mining, pp. 53–68, 2002. Tanaka, Y. and Uehara, K., “Discover Motifs in Multi Dimensional Time-Series Using the Principal Component Analysis and the MDL Principle,” in Proc. of Int. Conf. on Machine Learning and Data Mining in Pattern Recognition, pp. 252–265, 2003. Motoda, H., Active Mining, IOS Press, Amsterdam, 2002. Tsumoto, S., Yamaguchi, T., Numao, M. and Motoda, H., “Active Mining Project: Overview,” Lecture Notes in Artificial Intelligence, 3403, pp. 1–10, 2005. Keogh, E. and Lin, J., “Clustering of Time-Series Subsequences is Meaningless: Implications for Previous and Future Research,” Knowledge and Information Systems, 8 (2), pp.154–177, 2005. Keogh, E., “Time Series Data Mining Archive,” http://www.cs.ucr.edu/~eamonn/TSDMA/, 2005. Yang, Y., Carbonell, J., Brwon, R. and Pierce, T., “Learning Approaches for Detecting and Tracking News Events,” IEEE Intelligent Systems Special Issue on Applications of Intelligent Information Retrieval, 14, pp.32–43, 1999. Ohsaki, M., Sato, Y., Yokoi, H. and Yamaguchi, T., “A Rule Discovery Support System for Sequential Medical Data, – In the Case Study of a Chronic Hepatitis Dataset –,” in Proc. of Int. Workshop on Active Mining, pp. 97–102, 2002. Tsumoto, S., “ECML/PKDD2002 Discovery Challenge,” http://lisp.vse.cz/challenge/ecmlpkdd2002/, 2002.