ПРОЕКТУВАННЯ СИСТЕМИ НАВЧАННЯ ДЛЯ ІГРОВИХ ДОДАТКІВ
DOI:
https://doi.org/10.33243/2518-7139-2020-1-2-82-91Анотація
У статті розглядається задача проектування системи навчання агентів в інтелектуальних ігрових додатках на основі Unity Game Engine і алгоритмів машинного навчання з підкріпленням. Сучасні тенденції розробки ігрових додатків характеризуються активним використанням концепції інтелектуального агента як моделі поведінки активного елементу в різних ситуаціях із застосуванням різноманітних стратегій взаємодії з іншими активними елементами і середовищем. В останні роки можна спостерігати значне число досягнень в цій області, такі як DeepMind and the Deep Q learning architecture, перемога чемпіона гри Go з AlphaGo, OpenAI і PPO. Розробники продуктів Unity впровадили підтримку машинного навчання і, зокрема, глибинного навчання з підкріпленням заради створення SDK, глибинного навчання з підкріпленням для розробників ігор і симуляцій. Використовуючи Unity й інструментарій ML-Agents можна створювати фізично, візуально і когнітивно багаті середовища оточення, в тому числі і для оцінки нових алгоритмів і стратегій. Проте проектування системи навчання агентів в Unity ML-Agents можливо тільки з використанням Python API. У даній статті вивчається можливість проектування системи навчання агентів в ігровому додатку Flappy Bird на основі Unity Game Engine з можливістю створення власного середовища оточення. Окремо в роботі виділені особливості, характерні для ігрового середовища Flappy Bird. Оточення може бути реалізовано як середовище, що повністю або частково спостерігається. У даній статті пропонується використання повністю спостережуваного оточення, оскільки в цьому випадку всі стани середовища видно на ігровому полі. Таким чином, проблема формування стратегії розглядається як марковський процес прийняття рішень і агент безпосередньо спостерігає за поточним станом навколишнього середовища. Як спосіб навчання був використаний Temporal Difference Learning, що передбачає оцінку винагороди на кожному етапі. Розроблено два окремих середовища оточення, детерміноване і стохастичне, що дозволяє проводити подальші дослідження й оцінки алгоритмів формування стратегій