Визначення віку людини за фото на основі нейронних мереж
Ключові слова:
нейронні мережі, регресія, UTKFaces, оцінка вікуАнотація
Метою цієї роботи було порівняти різні архітектури нейронних мереж для задачі оцінки віку за зображеннями облич. Оскільки вік є неперервною змінною, задачу визначення віку людини за зображеннями її обличчя розглядають як задачу регресії. У цій роботі використовувався набір даних UTKFaces. Цей набір містить 24 000 анотованих зображень, категоризованих за статтю, расою та віком. Для вирішення задачі було обрано чотири архітектури для навчання: AlexNet, VGG-19, ResNet-50 та Inception-v4. Ці архітектури згорткових нейронних мереж показали значні досягнення в класифікації зображень на наборі даних ImageNet. AlexNet впровадив використання ReLU-активації, dropout та max-pooling, тоді як VGG-19 підкреслив глибші архітектури з малими фільтрами. ResNet-50 вирішив проблему зникнення градієнта за допомогою залишкових зв'язків, а Inception-v4 покращив ефективність і потік градієнта за допомогою оптимізованих блоків та залишкових зв'язків. У всіх мережах останній шар був замінений на повнозв'язний шар з одним нейроном і лінійною активаційною функцією. Під час навчання як функцію втрат використовували середньоквадратичну помилку (MSE), а як метричну якості – середню абсолютну помилку (MAE). Дані були розділені на навчальний та тестовий набори у співвідношенні 90% до 10%. Перед навчанням зображення були нормалізовані та змінені до розмірів, що відповідають вимогам кожної нейронної мережі. AlexNet та VGG-19 навчалися з використанням оптимізатора SGD з коефіцієнтом навчання 0.2, ResNet-50 навчався з використанням оптимізатора Adam з коефіцієнтом навчання 0.02, а Inception-v4 навчався з використанням оптимізатора Adadelta з коефіцієнтом навчання 0.02. Ці методи та їхні параметри були обрані як найкращі після обчислювальних експериментів. Кожна мережа навчалася різну кількість епох, необхідних для збіжності. Після навчання VGG-19 та ResNet-50 досягли значень MAE 2.7 та 3.5 відповідно, тоді як Inception-v4 мала значення MAE 3.87. AlexNet продемонстрував значне перенавчання. ResNet-50 обробляв зображення найшвидше.
Завантажити
Посилання
UTKFace. Kaggle. https://www.kaggle.com/datasets/jangedoo/utkface-new/data
Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). ImageNet Classification with Deep Convolutional Neural Networks. Communications of the ACM, 60(6), 84–90. https://doi.org/10.1145/3065386
Simonyan, K., & Zisserman, A. (2014). Very deep convolutional networks for large-scale image recognition. 3rd International Conference on Learning Representations (ICLR 2015), 1–14. https://doi.org/10.48550/arXiv.1409.1556
He, K., Zhang, X., Ren, S., & Sun, J. (2016). Deep Residual Learning for Image Recognition. 2016 IEEE Conference on Comput-er Vision and Pattern Recognition, 770–778. https://doi.org/10.1109/CVPR.2016.90
Szegedy, C., Ioffe, S., Vanhoucke, V., & Alemi, A. (2017). In-ception-v4, Inception-ResNet and the Impact of Residual Connections on Learning Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence, 31(1), 4278–4284. https://doi.org/10.1609/aaai.v31i1.11231
Завантаження
Опубліковано
Номер
Розділ
Ліцензія
Авторське право (c) 2024 Євгеній Вербенко, Ольга Мацуга (Автор)

Ця робота ліцензується відповідно до ліцензії Creative Commons Attribution 4.0 International License.
Всі статті, опубліковані в журналі Challenges and Issues of Modern Science, ліцензовані за ліцензією Creative Commons Attribution 4.0 International (CC BY). Це означає, що ви можете:
- Поширювати, копіювати та передавати статтю
- Адаптувати, реміксувати та створювати похідні роботи на основі статті
за умови, що ви надаєте належне посилання на оригінальну роботу, вказуєте ім'я авторів, назву статті, журнал та наявність ліцензії CC BY. Будь-яке використання матеріалів не повинно припускати схвалення авторами або журналом використаного матеріалу.