Một phương pháp nhóm nhiều lớp kết hợp bảo vệ quyền riêng tư trong khai thác dữ liệu

Knowledge and Information Systems - Tập 19 - Trang 133-157 - 2008
Zhouxuan Teng1, Wenliang Du1
1Department of Electrical Engineering and Computer Science, Syracuse University, Syracuse, USA

Tóm tắt

Trong bài báo này, chúng tôi đề xuất một phương pháp nhóm nhiều lớp kết hợp cho việc bảo vệ quyền riêng tư trong khai thác dữ liệu. Chúng tôi có hai đóng góp trong bài báo này. Đầu tiên, chúng tôi đề xuất một phương pháp kết hợp. Các nghiên cứu trước đây đã sử dụng hoặc là phương pháp ngẫu nhiên hóa hoặc là phương pháp tính toán multi-party an toàn (SMC). Tuy nhiên, hai phương pháp này có những đặc điểm bổ sung cho nhau: phương pháp ngẫu nhiên hóa thì hiệu quả hơn nhưng độ chính xác lại kém hơn, trong khi phương pháp SMC thì kém hiệu quả nhưng độ chính xác lại cao hơn. Chúng tôi đề xuất một phương pháp kết hợp mới, tận dụng điểm mạnh của cả hai phương pháp để cân bằng độ chính xác và hiệu suất. So với hai phương pháp hiện có, phương pháp mà chúng tôi đề xuất có thể đạt được độ chính xác tốt hơn nhiều so với phương pháp ngẫu nhiên hóa và giảm chi phí tính toán nhiều hơn so với phương pháp SMC. Chúng tôi cũng đề xuất một sơ đồ nhóm đa dạng, giúp người khai thác dữ liệu dễ dàng kiểm soát sự cân bằng giữa độ chính xác khai thác dữ liệu và quyền riêng tư. Sơ đồ này được khơi gợi bởi thực tế rằng các sơ đồ ngẫu nhiên hóa hiện tại, thông qua việc ngẫu nhiên hóa dữ liệu ở mức thuộc tính cá nhân, có thể tạo ra độ chính xác không đủ khi số chiều cao. Chúng tôi phân chia các thuộc tính thành các nhóm và phát triển một sơ đồ để tiến hành ngẫu nhiên hóa dựa trên nhóm nhằm đạt được độ chính xác khai thác dữ liệu tốt hơn. Để chứng minh hiệu quả của các sơ đồ tổng quát được đề xuất, chúng tôi đã triển khai chúng cho thuật toán cây quyết định ID3 và vấn đề khai thác quy tắc liên kết và cũng trình bày các kết quả thử nghiệm.

Từ khóa


Tài liệu tham khảo

Agrawal D, Aggarwal C (2001) On the design and quantification of privacy preserving data mining algorithms. In: Proceedings of the 20th ACM SIGACT-SIGMOD-SIGART symposium on principles of database systems Agrawal R, Srikant R (2000) Privacy-preserving data mining. In: Proceedings of the 2000 ACM SIGMOD on management of data, Dallas, TX, USA, May 15–18, 2000 Clifton C, Kantarcioglu M, Vaidya J, Lin X, Zhu M (2002) Tools for privacy preserving data mining. SIGKDD Explorations, December 2002 Du W, Zhan Z (2002) Building decision tree classifier on private data. Workshop on privacy, security, and data mining at the 2002 IEEE International Conference on Data Mining (ICDM’02), Maebashi City, Japan, December 9 Du W, Zhan Z (2003) Using randomized response techniques for privacy-preserving data mining. In: Proceedings of the 9th ACM SIGKDD international conference on knowledge discovery and data mining, Washington, DC, USA Evfimievski A, Srikant R, Agrawal R, and Gehrke J (2002) Privacy preserving mining of association rules. In: Proceedings of the 8th ACM SIGKDD international conference on knowledge discovery and data mining, Edmonton, Alberta, Canada Goldwasser S (1997) Multi-party computations: past and present. In: Proceedings of the 16th annual ACM symposium on principles of distributed computing, Santa Barbara, CA, USA, August 21–24, 1997 Han J, Kamber M (2001) Data mining concepts and techniques. Morgan Kaufmann Publishers, San Francisco Kantarcioglu M, Jin J, and Clifton C (2004) When do data mining results violate privacy? In: Proceedings of the 10th ACM SIGKDD international conference on knowledge discovery and data mining (KDD 2004), Seattle, WA, USA Kargupta H, Datta S, Wang Q, Sivakumar K (2003) On the privacy preserving properties of random data perturbation techniques. In: Proceedings of the 3rd IEEE international conference on data mining (ICDM), Melbourne, Florida, USA, November 19–22, 2003 Lindell Y, Pinkas B (2000) Privacy preserving data mining. Advances in Cryptology—Crypto2000. Lecture Notes in Computer Science, vol 1880 Meng D, Sivakumar K, and Kargupta H (2004) Privacy sensitive bayesian network parameter learning. In: Proceedings of the fourth IEEE International conference on data mining (ICDM), Brighton, UK Pinkas B (2002) Cryptographic techniques for privacy-preserving data mining. SIGKDD Explor 4(2): 12–19 Rizvi S, Haritsa J (2002) Maintaining data privacy in association rule mining. In: Proceedings of the 28th VLDB conference, Hong Kong, China Sanil A, Karr A, Lin X, Reiter J (2004) Privacy preserving regression modelling via distributed computation. In: Proceedings of the 10th ACM SIGKDD international conference on knowledge discovery and data mining (KDD), Seattle, WA, USA Subramaniam H, Wright R, Yang Z (2004) Experimental analysis of privacy-preserving statistics computation. In: Proceedings of the workshop on secure data management (held in conjunction with VLDB’04). LNCS, vol 3178. Springer, Heidelberg Teng Z, Du W (2007) A hybrid multi-group approach for privacy preserving decision tree building. In: Proceedings of the 11th Pacific-Asia conference on knowledge discovery and data mining (PAKDD 2007) Vaidya J, Clifton C (2002) Privacy preserving association rule mining in vertically partitioned data. In: Proceedings of the 8th ACM SIGKDD international conference on knowledge discovery and data mining, July 23–26 Vaidya J, Clifton C (2003) Privacy-preserving K-means clustering over vertically partitioned data. In: Proceedings of the 9th ACM SIGKDD international conference on knowledge discovery and data mining August 24–27 Vaidya J, Yu H, Jiang X (2007) Privacy-preserving svm classification. J Knowl Inf Syst 14(2): 161–178 Wang K, Fung B, Yu P (2007) Handicapping Attacker’s confidence: an alternative to k-anonymization. J Knowl Inf Syst 11(3): 345–368 Wang K, Yu P, Chakraborty S (2004) Bottom-up generalization: a data mining solution to privacy protection. In: Proceedings of the fourth IEEE international conference on data mining (ICDM), Brighton, UK Warner S (1965) Randomized response: a survey technique for eliminating evasive answer bias. J Am Stat Assoc 60(309): 63–69 Wright R, Yang Z (2004) Privacy-preserving bayesian network structure computation on distributed heterogeneous data. In: Proceedings of the 10th ACM SIGKDD international conference on knowledge discovery and data mining (KDD), Seattle, WA, USA Xu S, Zhang J, Han D, Wang J (2006) Singular value decomposition based data distortion strategy for privacy protection. J Knowl Inf Syst 10(3): 383–397 Zhu Y, Liu L (2004) Optimal randomization for privacy preserving data mining. In: Proceedings of the 10th ACM SIGKDD international conference on knowledge discovery and data mining