ДОСЛІДЖЕННЯ СТІЙКОСТІ НЕЙРОННИХ МЕРЕЖ, НАВЧЕНИХ ІЗ ВИКОРИСТАННЯМ МОДЕЛЕЙ ЗМАГАЛЬНИХ АТАК
DOI:
https://doi.org/10.31471/1993-9981-2024-1(52)-121-128Ключові слова:
Змагальні атаки, змагальний тренінг, нейронна мережа, машинне навчання, FGSM, C&W, JSMA, атака методом чорної скриньки.Анотація
У статті проведено детальний аналіз ефективності змагального навчання для підвищення стійкості нейронних мереж до атак зловмисників у завданнях розпізнавання зображень. Розглянуто питання уразливості нейронних мереж, зокрема їхню схильність до помилкової класифікації під впливом змагальних прикладів, створених спеціально для обману моделі. Дослідження спрямоване на розробку методів навчання, які підвищують стійкість моделей до різних типів атак, зберігаючи при цьому високу якість класифікації чистих зразків. У роботі встановлено, що традиційні підходи до навчання мереж, орієнтовані на протидію лише одному типу атаки, є недостатніми для забезпечення загальної стійкості моделі. Для досягнення комплексного захисту було запропоновано використання декількох типів змагальних прикладів (FGSM, JSMA, C&W). Це дозволяє моделі формувати більш стійкі до атак уявлення даних. З метою оцінювання ефективності запропонованого підходу було проведено серію експериментів з використанням набору даних MNIST, який містить 60000 тренувальних і 10000 тестових зображень у градаціях сірого. Результати досліджень показали, що змагальне навчання значно покращує стійкість моделі до атак. Зокрема, середня точність класифікації для різних типів атак підвищується до 97,48%–97,95%, а застосування розширення даних додатково збільшує точність до 99,42%. Водночас незахищені моделі без доповнення даних демонструють вищу точність лише для окремих атак, але загальна їхня стійкість залишається низькою. Запропонований підхід також дозволяє знизити середню ефективність атак на 29,2%, при цьому зберігаючи високу точність класифікації (98,9%) для чистих зразків. Для оцінювання впливу змагального навчання була використана комбінація метрик, що враховують не лише точність класифікації, але й стійкість моделі до атак. Виявлено, що змагальне навчання сприяє покращенню узагальнюючих властивостей моделі, що дозволяє зменшити вразливість до різноманітних зловмисних введень, створених за допомогою різних атакувальних алгоритмів.
Завантаження
Посилання
1. Moosavi-Dezfooli S.M., Fawzi A., Frossard P. Deepfool: A simple and accurate method to fool deep neural networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Las Vegas, NV, USA, 27–30 June 2016, pp. 2574–2582.
2. Papernot N., McDaniel P., Jha S., Fredrikson, M., Celik Z.B., Swami, A. The limitations of deep learning in adversarial settings. In Proceedings of the 2016 IEEE European Symposium on Security and Privacy (EuroS&P), Saarbrucken, Germany, 21–24 March 2016, pp. 372–387.
3. Madry A., Makelov A., Schmidt L., Tsipras, D., Vladu A. Towards Deep Learning Models Resistant to Adversarial Attacks. arXiv 2018, arXiv:1706.06083.
4. Schott L., Rauber J., Bethge M., Brendel W. Towards the first adversarially robust neural network model on MNIST . arXiv 2019, arXiv:1805.09190/
5. Schmidt L., Santurkar S., Tsipras D., Talwar K., Madry A. Adversarially robust generalization requires more data. Adv. Neural Inf. Process. Syst. 2018, 31, 5014–5026.
1. Tramèr F., Boneh D. Adversarial training and robustness for multiple perturbations. Adv. Neural Inf. Process. Syst. 2019, 32, 5866–5876.
7 Guo C., Gardner, J.R., You Y., Wilson A.G., Weinberger K.Q. Simple Black-box Adversarial Attacks. arXiv 2019, arXiv:1905.07121.
9 LeCun Y., Bottou L., Bengio Y., Haffner P. Gradient-based learning applied to document recognition. Proc. IEEE 1998, 86, 2278–2324.
10 Chen P.Y., Sharma Y., Zhang H., Yi J., Hsieh C.J. EAD: Elastic-Net Attacks to Deep Neural Networks via Adversarial Examples. In Proceedings of the Thirty-Second AAAI Conference on Artificial Intelligence (AAAI-18), New Orleans, LA, USA, 2–7 February 2018.
11 Kurakin A., Goodfellow I., Bengio S. Adversarial examples in the physical world. arXiv 2017, arXiv:1607.02533.
12 Dong Y., Liao F., Pang T., Su H., Zhu, J., Hu X., Li J. Boosting Adversarial Attacks with Momentum. In Proceedings of the 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, Salt Lake City, UT, USA, 18–23 June 2018, pp. 9185–9193.