Phân loại ImageNet bằng mạng nơ-ron tích chập sâu

Communications of the ACM - Tập 60 Số 6 - Trang 84-90 - 2017
Alex Krizhevsky1, Ilya Sutskever1, Geoffrey E. Hinton2
1Google Inc
2OpenAI

Tóm tắt

Chúng tôi đã huấn luyện một mạng nơ-ron tích chập sâu lớn để phân loại 1,2 triệu hình ảnh độ phân giải cao trong cuộc thi ImageNet LSVRC-2010 thành 1000 lớp khác nhau. Trên dữ liệu kiểm tra, chúng tôi đạt được tỷ lệ lỗi top-1 và top-5 lần lượt là 37,5% và 17,0%, điều này tốt hơn nhiều so với công nghệ tiên tiến trước đó. Mạng nơ-ron có 60 triệu tham số và 650.000 nơ-ron, bao gồm năm lớp tích chập, một số lớp có kèm theo lớp max-pooling, và ba lớp liên kết hoàn toàn với softmax 1000 chiều cuối cùng. Để tăng tốc quá trình huấn luyện, chúng tôi đã sử dụng nơ-ron không bão hòa và một triển khai GPU rất hiệu quả của phép toán tích chập. Để giảm thiểu hiện tượng quá khớp trong các lớp liên kết hoàn toàn, chúng tôi đã áp dụng một phương pháp điều hòa được phát triển gần đây gọi là "dropout" và đã chứng tỏ rất hiệu quả. Chúng tôi cũng đã tham gia một biến thể của mô hình này trong cuộc thi ILSVRC-2012 và đạt được tỷ lệ lỗi kiểm tra top-5 chiến thắng là 15,3%, so với 26,2% đạt được bởi bài dự thi đứng thứ hai.

Từ khóa

#ImageNet #mạng nơ-ron tích chập sâu #phân loại hình ảnh #quy tắc dropout #hiệu suất mạng nơ-ron

Tài liệu tham khảo

10.1145/1345448.1345465

Berg A., 2010, Large scale visual recognition challenge

10.1023/A:1010933404324

Cireşan D., 2011, High-performance neural networks for visual object classification. Arxiv preprint arXiv:1102.0183

Cireşan D., 2012, Multi-column deep neural networks for image classification. Arxiv preprint arXiv:1202.2745

Deng J. Berg A. Satheesh S. Su H. Khosla A. Fei-Fei L. In ILSVRC-2012 (2012). Deng J. Berg A. Satheesh S. Su H. Khosla A. Fei-Fei L. In ILSVRC-2012 (2012).

Deng J., 2009, CVPR09

10.1016/j.cviu.2005.09.012

10.1007/BF00344251

He K., 2015, Deep residual learning for image recognition. arXiv preprint arXiv:1512.03385

Hinton G., 2012, Improving neural networks by preventing co-adaptation of feature detectors. arXiv preprint arXiv:1207.0580

10.1109/ICCV.2009.5459469

Krizhevsky A., 2009, Department of Computer Science

Krizhevsky A., 2010, Convolutional deep belief networks on cifar-10. Unpublished manuscript

Krizhevsky A., 2011, ESANN

LeCun Y., 1990, Advances in Neural Information Processing Systems

LeCun Y., 1985, Une procedure d'apprentissage pour reseau a seuil asymmetrique (a learning scheme for asymmetric threshold networks)

10.5555/1896300.1896315

10.1109/ISCAS.2010.5537907

10.1145/1553374.1553453

10.1007/BF01931367

Mensink T., 2012, Italy

10.5555/3104322.3104425

10.1371/journal.pcbi.0040027

10.1371/journal.pcbi.1000579

Rumelhart D.E., 1985, DTIC Document

10.1007/s11263-007-0090-8

10.1109/CVPR.2011.5995504

10.5555/938980.939477

10.1109/CVPR.2015.7298594

10.1162/neco.2009.10-08-881

Werbos P., 1974, Beyond regression: New tools for prediction and analysis in the behavioral sciences