БАГАТОРІВНЕВИЙ АНАЛІЗ ВІДЕОЗОБРАЖЕННЯ НА БАЗІ RASPBERRY PI ТА CHATGPT-4 VISION
DOI:
https://doi.org/10.31471/1993-9981-2025-1(54)-78-88Ключові слова:
аналіз відео; Raspberry Pi; камера; ChatGPT.Анотація
У сучасному світі технології комп'ютерного зору та штучного інтелекту швидко розвиваються, відкриваючи нові горизонти для аналізу та інтерпретації відеозображень. Ця стаття представляє багаторівневий підхід до аналізу відеозображень, використовуючи платформу Raspberry Pi та передову модель ChatGPT-4 Vision. Основна увага приділяється методам покадрового аналізу зображень та комбінуванню різних підходів для підвищення точності та ефективності системи. Досліджено можливості Raspberry Pi 5 у виконанні складних обчислень для розпізнавання об'єктів та аналізу зображень у реальному часі. Розглянуто різні методи аналізу зображень, включаючи традиційні алгоритми обробки, методи машинного навчання та глибокого навчання з використанням згорткових нейронних мереж. Особливу увагу приділено інтеграції з моделлю ChatGPT-4 Vision, яка надає потужні можливості для розпізнавання та семантичного розуміння зображень. Запропоновано методики комбінування результатів різних рівнів аналізу для досягнення більш точних та надійних результатів. Показано, як поєднання апаратних можливостей Raspberry Pi з передовими алгоритмами штучного інтелекту може бути ефективним рішенням для широкого спектру застосувань, таких як системи безпеки, автоматизація, медична діагностика та наукові дослідження. У висновках підкреслюється важливість багаторівневого підходу до аналізу зображень та потенціал використання доступного апаратного забезпечення для реалізації складних задач комп'ютерного зору. Результати цього дослідження можуть стати основою для подальших розробок та вдосконалення систем аналізу відеозображень, сприяючи розвитку галузі загалом.
Завантаження
Посилання
Raspberry Pi Foundation. Raspberry Pi Documentation URL: https://www.raspberrypi.com/documentation/
Howard A.G., Zhu M., Chen B. et al. MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications. arXiv:1704.04861, 2017.
Redmon J., Divvala S., Girshick R., Farhadi A. You Only Look Once: Unified, Real-Time Object Detection. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2016.
Liu W., Anguelov D., Erhan D. et al. SSD: Single Shot MultiBox Detector. European Conference on Computer Vision (ECCV), 2016.
Krizhevsky A., Sutskever I., Hinton G.E. ImageNet Classification with Deep Convolutional Neural Networks. NIPS, 2012.
OpenCV Library URL:: https://opencv.org/
Abadi M., Barham P., Chen J. et al. TensorFlow: A system for large-scale machine learning. OSDI. 2016.
Paszke A., Gross S., Massa F. et al. PyTorch: An Imperative Style, High-Performance Deep Learning Library. NeurIPS, 2019.
OpenAI. ChatGPT & GPT-4 API Documentation URL: https://platform.openai.com/docs/
introduction
Ren S., He K., Girshick R., Sun J. Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks. NIPS, 2015. doi: 10.1109/TPAMI.2016.2577031