С 1 по 14 ноября 2024 года состоялся GPN Intelligence Cup — индивидуальный кейс-чемпионат, организованный компанией «Газпром нефть». Участники соревновались в решении бизнес-задач с использованием методов Data Science, вдохновляясь фэнтезийной вселенной, где задачи были адаптированы под реальные кейсы компании. Чемпионат включал четыре направления:
- Data Scientist в нефтяном ритейле,
- Data Scientist в разведке и добыче,
- Data Scientist в разработке инновационных решений,
- Data Scientist в управлении проектной командой.
Чемпионат стал площадкой для студентов 3 – 4 курсов бакалавриата и магистратуры, предоставив возможность продемонстрировать навыки в анализе данных, машинном обучении и разработке инновационных решений.
Победителем в одном из направлений стал сотрудник Лаборатории методов оптимизации и искусственного интеллекта СПбГЭУ (лаборатория МОИИ) Иксанов Марат, который выбрал для решения кейс «Data Scientist в управлении проектной командой». Задача заключалась в том, чтобы разработать систему рекомендаций для подбора оптимальных команд героев Гильдии искателей приключений.
В основе решения лежала текстовая кластеризация поручений. Все задачи были разделены на группы по целям и объектам с помощью методов Natural Language Processing (NLP) для анализа описаний, содержащих синонимы и неоднозначные формулировки. Это позволило унифицировать задачи и выделить ключевые параметры для каждой из них.
Далее, с учётом загруженности героев и их навыков, была сформулирована математическая постановка задачи как задача покрытия множества. Решение использовало теорию двухсторонних рынков и учитывало временные ограничения. Этот подход позволил эффективно распределить ресурсы героев, минимизировать провалы миссий и увеличить доходы Гильдии.
Призером в направлении «Data Scientist в разработке инновационных решений» стал сотрудник Лаборатории МОИИ Романов Александр. Его задачей было создание модели для предсказания числового показателя — состояния магического портала «Врата Вечности».
В ходе работы разработана комплексная модель регрессии, способная как можно более точно прогнозировать требующийся показатель. В результате проведённого анализа исходных данных устранены мультиколлинеарные признаки, а также созданы новые переменные на основе имеющихся параметров.
Ключевым этапом решения стало построение модели стекинга, состоящей из трёх компонентов: линейной регрессии, градиентного бустинга (XGBoost) и уточняющей модели на основе метода k-ближайших соседей. Такой подход позволил минимизировать ошибки предсказания. В результате модель достигла минимальных значений ошибок по метрикам MAE и SMAPE, обеспечив точность прогнозирования с погрешностью менее 1%. Таким образом, работа помогла спрогнозировать состояние магического портала, а также продемонстрировала высокий уровень владения современными инструментами анализа данных.