ПРОЕКТИРОВАНИЕ СИСТЕМЫ ОБУЧЕНИЯ ДЛЯ ИГРОВЫХ ПРИЛОЖЕНИЙ
DOI:
https://doi.org/10.33243/2518-7139-2020-1-2-82-91Аннотация
В статье рассматривается задача проектирования системы обучения агентов в интеллектуальных игровых приложениях на основе Unity Game Engine и алгоритмов машинного обучения с подкреплением. Современные тенденции разработки игровых приложений характеризуются активным использованием концепции интеллектуального агента в качестве модели поведения активного элемента в различных ситуациях с применением разнообразных стратегий взаимодействия с другими активными элементами и средой. В последние годы можно наблюдать значительное число достижений в этой области, такие как DeepMind and the Deep Q learning architecture, победа чемпиона игры Go с AlphaGo, OpenAI и PPO. Разработчики продуктов Unity внедрили поддержку машинного обучения и, в частности, глубинного обучения с подкреплением ради создания SDK глубинного обучения с подкреплением для разработчиков игр и симуляций. Используя Unity и инструментарий ML-Agents можно создавать физически, визуально и когнитивно богатые среды окружения, в том числе и для оценки новых алгоритмов и стратегий. Однако проектирование системы обучения агентов в Unity ML-Agents возможно только с использованием Python API. В данной статье изучается возможность проектирования системы обучения агентов в игровом приложении Flappy Bird на основе Unity Game Engine c возможностью создания собственной среды окружения. Отдельно в работе выделены особенности, характерные для среды игрового приложения Flappy Bird. Окружение может быть реализовано как полностью наблюдаемая или частично наблюдаемая среда. В данной статье предлагается использование полностью наблюдаемого окружения, поскольку в этом случае все состояния среды видны на игровом поле. Таким образом, проблема формирования стратегии рассматривается как марковский процесс принятия решений и агент непосредственно наблюдает за текущим состоянием окружающей среды. В качестве способа обучения был использован Temporal Difference Learning, предполагающий оценку вознаграждения на каждом этапе. Разработаны две отдельные среды окружения, детерминированная и стохастическая, позволяющие проводить дальнейшие исследования и оценки алгоритмов формирования стратегий