Nội dung được dịch bởi AI, chỉ mang tính chất tham khảo
Phương Pháp Tấn Công Đối Kháng Nhanh Dựa trên Mẫu Dữ Liệu
Tóm tắt
Mạng nơ-ron sâu (DNN) mang lại sự phát triển nhanh chóng cho các thuật toán nhận diện mẫu. Tuy nhiên, một số lượng lớn các thí nghiệm cho thấy có những điểm yếu trong các mạng DNN. Mặc dù đã có nhiều thuật toán tạo mẫu đối kháng được đề xuất, hầu hết trong số đó dựa trên các thông tin đã biết về mô hình bị tấn công. Chúng tôi đề xuất một thuật toán tấn công đối kháng nhanh trong môi trường đen (black-box) hoàn toàn dựa trên các mẫu dữ liệu. Đầu tiên, chúng tôi tìm ra sự khác biệt chính giữa các lớp khác nhau dựa trên phân tích thành phần chính (PCA) và tính toán vectơ khác biệt. Trong quá trình tấn công, chúng tôi chỉ cần điều chỉnh một mẫu về lớp mục tiêu (đối kháng theo mục tiêu) hoặc lớp khác gần nhất (đối kháng phân loại sai). Sự thay đổi tối thiểu để tạo ra một mẫu đối kháng theo mục tiêu được tìm thấy bằng cách tìm kiếm theo đường phân đoạn dọc theo vectơ khác biệt từ lớp hiện tại đến lớp mục tiêu. Đối với tấn công phân loại sai, sự thay đổi tối thiểu giữa tất cả các lớp khác được đưa ra. Kết quả thực nghiệm cho thấy thuật toán được đề xuất tạo ra các mẫu đối kháng tương đương nhanh hơn nhiều so với các thuật toán tấn công cổ điển.
Từ khóa
#tấn công đối kháng #mạng nơ-ron sâu #thuật toán nhanh #phân tích thành phần chính #mẫu dữ liệuTài liệu tham khảo
Hosseini H, Xiao B, Poovendran R (2017) Google’s cloud vision API is not robust to noise. In: 16th IEEE international conference on machine learning and applications (ICMLA)
Szegedy C, Zaremba W, Sutskever I et al (2014) Intriguing properties of neural networks. In: International conference on learning representations (ICLR)
Goodfellow IJ, Shlens J, Szegedy C (2015) Explaining and harnessing adversarial examples. In: Proceedings of the international conference on learning representations (ICLR)
Rozsa A, Rudd EM, Boult TE (2016) Adversarial diversity and hard positive generation. In: IEEE conference on computer vision and pattern recognition (CVPR) workshops
Kurakin A, Goodfellow IJ, Bengio S (2019) Adversarial examples in the physical world. https://arxiv.org/abs/1607.02533v4. Accessed 11 Apr 2019
Narodytska N, Kasiviswanathan S (2017) Simple black-box adversarial attacks on deep neural networks. In: IEEE conference on computer vision and pattern recognition workshops
Bai W, Quan C, Luo Z (2017) Alleviating adversarial attacks via convolutional autoencoder. In: 18th IEEE/ACIS international conference on software engineering, artificial intelligence, networking and parallel/distributed computing (SNPD)
Papernot N, McDaniel P, Jha S et al (2016) The limitations of deep learning in adversarial settings. In: IEEE European symposium on security and privacy (EuroS&P)
Papernot N, McDaniel P, Goodfellow I et al (2017) Practical black-box attacks against deep learning systems using adversarial examples. In: ACM ASIA CCS
Moosavi-Dezfooli SM, Fawzi A, Frossard P (2016) Deepfool: a simple and accurate method to fool deep neural networks. In: IEEE conference on computer vision and pattern recognition (CVPR)
Moosavi-Dezfooli SM, Fawzi O, Fawzi A et al (2017) Universal adversarial perturbations. In: IEEE conference on computer vision and pattern recognition (CVPR)
Mopuri KR, Garg U, Babu RV (2019) Fast feature fool: a data independent approach to universal adversarial perturbations. https://arxiv.org/abs/1707.05572v1. Accessed 11 Apr 2019
Sarkar S, Bansal A, Mahbub U et al (2019) UPSET and ANGRI: breaking high performance image classifiers. https://arxiv.org/abs/1707.01159v1. Accessed 11 Apr 2019
Cisse M, Adi Y, Neverova N et al (2019) Houdini: fooling deep structured prediction models. https://arxiv.org/abs/1707.05373v1. Accessed 11 Apr 2019
Khrulkov V, Oseledets I (2019) Art of singular vectors and universal adversarial perturbations. https://arxiv.org/abs/1709.03582v1. Accessed 11 Apr 2019
Moosavi-Dezfool SM, Fawzi A, Fawzi O et al (2019) Analysis of universal adversarial perturbations. https://arxiv.org/abs/1705.09554v1. Accessed 11 Apr 2019
Rauber J, Brendel W, Bethge M (2019) Foolbox v0.8.0: a Python toolbox to benchmark the robustness of machine learning models. https://arxiv.org/abs/1707.04131v1. Accessed 11 Apr 2019