Sử dụng đạo hàm trong phân loại chuỗi thời gian

Data Mining and Knowledge Discovery - Tập 26 - Trang 310-331 - 2012
Tomasz Górecki1, Maciej Łuczak2
1Faculty of Mathematics and Computer Science, Adam Mickiewicz University, Poznań, Poland
2Department of Civil and Environmental Engineering, Koszalin University of Technology, Koszalin, Poland

Tóm tắt

Trong những năm gần đây, sự phổ biến của chuỗi thời gian đã tăng vọt. Với việc sử dụng rộng rãi công nghệ thông tin hiện đại, một số lượng lớn chuỗi thời gian có thể được thu thập trong các hoạt động kinh doanh, y tế hoặc sinh học, chẳng hạn. Hệ quả là có sự gia tăng mạnh mẽ về mối quan tâm đến việc truy vấn và khai thác dữ liệu như vậy, điều này dẫn đến việc xuất hiện nhiều công trình giới thiệu các phương pháp mới cho việc lập chỉ mục, phân loại, phân cụm và xấp xỉ chuỗi thời gian. Cụ thể, nhiều thước đo khoảng cách mới giữa các chuỗi thời gian đã được giới thiệu. Trong bài báo này, chúng tôi đề xuất một hàm khoảng cách mới dựa trên đạo hàm. Trái ngược với các thước đo nổi tiếng từ tài liệu hiện có, phương pháp của chúng tôi xem xét hình dạng tổng quát của một chuỗi thời gian hơn là so sánh chức năng điểm đến điểm. Khoảng cách mới được sử dụng trong phân loại với quy tắc láng giềng gần nhất. Để cung cấp một so sánh toàn diện, chúng tôi đã tiến hành một loạt thí nghiệm, kiểm tra hiệu quả trên 20 tập dữ liệu chuỗi thời gian từ nhiều lĩnh vực ứng dụng khác nhau. Các thí nghiệm của chúng tôi cho thấy phương pháp của chúng tôi cung cấp chất lượng phân loại cao hơn trên hầu hết các tập dữ liệu đã được xem xét.

Từ khóa

#chuỗi thời gian #phân loại #đạo hàm #khoảng cách #thí nghiệm

Tài liệu tham khảo

Batista G, Wang X, Keogh E (2011) A complexity-invariant distance measure for time series. In: Eleventh SIAM international conference on data mining (SDM’2011), Mesa, USA Benedikt L, Cosker D, Rosin PL, Marshal D (2008) Facial dynamics in biometric identification. In: BMVC, vol 2, pp 235– 241 Benedikt L, Cosker D, Rosin PL, Marshal D (2010) Assessing the uniqueness and permanence of facial actions for use in biometric applications. IEEE Trans Syst Man Cybernet A Syst Humans 40(3): 449–460 Berndt DJ, Clifford J (1994) Using dynamic time warping to find patterns in time series. In: AAAI workshop on knowledge discovery in databases, pp 229–248 Box GEP, Jenkins GM, Reinsel GC (2008) Time series analysis: forecasting and control. Wiley, New York Demšar J (2006) Statistical comparisons of classifiers over multiple data sets. J Mach Learn Res 7: 1–30 Ding H, Trajcevski G, Scheuermann P, Wang X, Keogh E (2008) Querying and mining of time series data: experimental comparison of representations and distance measures. In: Proceedings of 34th international conference on very large data bases, pp 1542–1552 Dunn OJ (1961) Multiple comparisons among means. J Am Stat Assoc 56: 52–64 Eads D, Hill D, Davis S, Perkins S, Ma J, Porter R, Theiler J (2002) Genetic algorithms and support vector machines for time series classification. In: Proc Int Soc Optic Eng 4787: 74–85 Friedman M (1937) The use of ranks to avoid the assumption of normality implicit in the analysis of variance. J Am Stat Assoc 32: 675–701 Friedman M (1940) A comparison of alternative tests of significance for the problem of m rankings. Ann Math Stat 11: 86–92 Gullo F, Ponti F, Tagarelli A, Greco S (2009) A time series representation model for accurate and fast similarity detection. Pattern Recogn 42(11): 2998–3014 Hollander M, Wolfe DA (1973) Nonparametric statistical methods. Wiley, New York Iman RL, Davenport JM (1980) Approximations of the critical region of the Freidman statistic. Commun Stat Theory Methods 9: 571–595 Keogh E (2002) Exact indexing of dynamic time warping. In 28th International Conference on Very Large Data Bases 406-417 Keogh E, Kasetty E (2003) On the need for time series data mining benchmarks: a survey and empirical demonstration. Data Min Knowl Discov 7(4): 349–371 Keogh E, Pazzani M (2001) Dynamic time warping with higher order features. In: Proceedings of SIAM international conference on data mining (SDM’2001), Chicago, USA Keogh E, Xi X, Wei L, Ratanamahatana CA (2006) The UCR Time Series Classification/Clustering Homepage: http://www.cs.ucr.edu/~eamonn/time_series_data/ Kulbacki M, Segen J, Bak A (2002) Unsupervised learning motion models using dynamic time warping. In: Proceedings of the intelligent information systems 2002 symposium, Sopot, 2002 Looney SW (1998) A statistical technique for comparing the accuracies of several classifiers. Pattern Recogn Lett 8: 5–9 Luan F, Li K, Ma S (2010) The algorithm of online handwritten signature verification based on improved DTW. Int J Model Identif Control 10(1-2): 81–86 Mokhtar N, Arof H, Iwahashi M (2010) One dimensional image processing for eye tracking using derivative dynamic time warping. Sci Res Essays 5(19): 2947–2952 Nemenyi PB (1963) Distribution-free multiple comparisons. PhD thesis, Princeton University Pavlovic V, Frey BJ, Huang TS (1999) Time-series classification using mixed-state dynamic Bayesian networks. In: Proceedings of IEEE conference on computer vision and pattern recognition, vol 2, pp 2609–2615 Penny W, Roberts S (1999) Dynamic models for nonstationary signal segmentation. Comput Biomed Res 32(6): 483–502 Petridis V, Kehagias A (1997) Predictive modular neural networks for time series classification. Neural Netw 10(1): 31–49