ПРОЕКТУВАННЯ СИСТЕМИ НАВЧАННЯ ДЛЯ ІГРОВИХ ДОДАТКІВ

Автор(и)

  • Г.А. Єгошина Одеська національна академія зв’язку ім. О.С. Попова
  • С.М. Вороной Одеська національна академія зв’язку ім. О.С. Попова
  • А.А. Овдейчук Одеська національна академія зв’язку ім. О.С. Попова

DOI:

https://doi.org/10.33243/2518-7139-2020-1-2-82-91

Анотація

У статті розглядається задача проектування системи навчання агентів в інтелектуальних ігрових додатках на основі Unity Game Engine і алгоритмів машинного навчання з підкріпленням. Сучасні тенденції розробки ігрових додатків характеризуються активним використанням концепції інтелектуального агента як моделі поведінки активного елементу в різних ситуаціях із застосуванням різноманітних стратегій взаємодії з іншими активними елементами і середовищем. В останні роки можна спостерігати значне число досягнень в цій області, такі як DeepMind and the Deep Q learning architecture, перемога чемпіона гри Go з AlphaGo, OpenAI і PPO. Розробники продуктів Unity впровадили підтримку машинного навчання і, зокрема, глибинного навчання з підкріпленням заради створення SDK, глибинного навчання з підкріпленням для розробників ігор і симуляцій. Використовуючи Unity й інструментарій ML-Agents можна створювати фізично, візуально і когнітивно багаті середовища оточення, в тому числі і для оцінки нових алгоритмів і стратегій. Проте проектування системи навчання агентів в Unity ML-Agents можливо тільки з використанням Python API. У даній статті вивчається можливість проектування системи навчання агентів в ігровому додатку Flappy Bird на основі Unity Game Engine з можливістю створення власного середовища оточення. Окремо в роботі виділені особливості, характерні для ігрового середовища Flappy Bird. Оточення може бути реалізовано як середовище, що повністю або частково спостерігається. У даній статті пропонується використання повністю спостережуваного оточення, оскільки в цьому випадку всі стани середовища видно на ігровому полі. Таким чином, проблема формування стратегії розглядається як марковський процес прийняття рішень і агент безпосередньо спостерігає за поточним станом навколишнього середовища. Як спосіб навчання був використаний Temporal Difference Learning, що передбачає оцінку винагороди на кожному етапі. Розроблено два окремих середовища оточення, детерміноване і стохастичне, що дозволяє проводити подальші дослідження й оцінки алгоритмів формування стратегій

##submission.downloads##

Опубліковано

2021-05-29

Номер

Розділ

Радіотехніка і телекомунікації