Победа по расчету

Как большие данные и машинное обучение помогают большому спорту

В командных играх спорта на тренерский штаб, особенно во время крупных соревнований, ложится большая аналитическая нагрузка. Специалистам приходится на ходу вести статистику ударов, промахов, сейвов, удачных и неудачных действий защитников и нападающих, чтобы выбрать оптимальную тактику и состав на следующую игру. Учитывая современный уровень развития компьютерных алгоритмов, естественно предположить, что искусственный интеллект справится с этими задачами быстрее и лучше людей. Чтобы узнать о том, какие перспективы машинное обучение открывает перед спортивной аналитикой, компания «Яндекс» провела конференцию «Большие данные в большом спорте». Специально для читателей N + 1 специалисты «Яндекса» подготовили рассказ об одном из участников конференции — компании ICEBERG, которая в этом сезоне помогала тренерскому штабу олимпийской сборной из России по хоккею подобрать оптимальный состав для выступлений в корейском Пхёнчхане. Компанию на конференции представляли Евгений Хохлов и Максар Шипхинеев.

В хоккее, как и в других видах спорта, применяются два способа сбора и обработки данных — статистика и продвинутая предсказательная аналитика. Первый способ основан на формальном подсчете определенных действий игроков. Зачастую речь идет о ручном сборе информации. В каждой лиге есть официальные статистические бригады — четыре-пять человек сидят на каждом матче и фиксируют основные действия игроков обеих команд на площадке, а потом сводят их в итоговый протокол: голы, голевые передачи, удаления и так далее.

В чем недостатки этого метода? Во-первых, данные нередко фиксируются с ошибками — стоит члену статистической бригады отвлечься, и он упустит из виду голевую передачу, иногда бывает, даже гол записывают не на того хоккеиста. Точность такой работы не превышает 85 процентов, порой даже ниже. Между прочим, игрокам очень важна личная статистика при переходах из клуба в клуб, поэтому для них каждая голевая передача на счету. Из-за этого появились даже компании, которые занимаются ручным сбором данных, полагаясь на видео. Там можно отмотать запись назад и как следует рассмотреть, что произошло на площадке. Результаты их работы точнее, но не намного — качество и ракурс съемки все же не всегда позволяют рассмотреть, кто именно совершил то или иное действие.

Но главное, во-вторых, даже если статистика, собранная ручным методом, на сто процентов верна, она несет в себе ограниченный запас информации. Например, статистика показывает, что у вратаря доля сейвов составляет 90 процентов. Но эта цифра не показывает сложность ударов, с которыми столкнулся вратарь, количество игроков, заслонявших ему в обзор в каждом отдельном случае, и так далее. Такого рода данные в ручном режиме не соберешь. Здесь необходимо применять продвинутую предсказательную аналитику, а это невозможно сделать без специального съемочного оборудования, компьютерной обработки данных и методов машинного обучения.

Необходимость в такой аналитике особенно повышается в дни крупных соревнований, к которым, несомненно, относятся Олимпийские игры. Игры зачастую проходят каждые два-три дня, и это значительно ограничивает время анализа последнего сыгранного матча и подготовки к следующему сопернику. Безусловно, тренер и его помощники обращают внимание, в первую очередь, на основные показатели эффективности игрока — броски в створ, выигранные вбрасывания, количество удалений, сейвы вратаря и так далее. Но, например, такие показатели, как темп катания или темп отхода в оборону, число владений и потерь шайбы и многие другие практически невозможно отследить и подсчитать прямо во время матча. Тем не менее, тренерскому штабу эта информация необходима для подбора наиболее эффективного состава на ближайшую игру.

Предсказательная аналитика использует методы анализа данных и нацелена не только на оценку действий конкретного игрока, но и на то, чтобы спрогнозировать его будущее поведение. Поскольку для машинного обучения такого уровня необходимо много данных, нельзя ограничиваться стандартными метриками (голы, броски и т.д.), надо добавить новые, например отслеживание передвижения на площадке через анализ координат шайбы и хоккеистов. Это позволит глубже оценить игроков команды, вычислить оптимальное сочетание игроков на площадке, подобрать подходящее звено против конкретного звена противника, найти слабые зоны в его обороне, выбрать лучшую стратегию замен.

Как с этими задачами справляется компания ICEBERG? Сначала необходимо собрать достаточный объем информации, для чего применяется технология оптического трекинга с элементом сбора информации. Специалисты компании снимают панорамное видео каждого матча с помощью собственной разработки — системы из трех камер. Камеры статичны и покрывают всю площадку. Каждые 0,1 секунды алгоритмы компьютерного зрения фиксируют шайбу и игроков обеих команд, которых компьютер автоматически распознает по номерам на форме. Например, алгоритм object tracking определяет местоположение движущихся объектов. Или, если объект пропадает из поля зрения, используется long-term tracking, который дорисовывает траекторию движения, основываясь на предыдущих данных.

Чтобы защитить полученную информацию, технология ICEBERG моментально отправляет ее на облачный сервер для безопасного хранения. Впоследствии эти данные можно трансформировать в любой показатель: ожидаемые голы, успешные входы в зону, ошибки в передачах и так далее. Причем по каждому игроку в системе имеется информация о том, где он находился в каждый момент времени, с какой скоростью он перемещался, как отыгрывал эпизоды, какие действия выполнял в каждый момент времени. Эти данные представлены в формате простой таблицы: игра — период — время — событие — координаты.

Датасет, полученный с каждой игры, состоит приблизительно из миллиона таких строк. С его помощью можно посмотреть, какие комбинации играет противник, через сколько секунд игрок начинает терять скорость, можно посчитать эффективность пасов или узнать, какие броски чаще всего пропускает вратарь. На основе этих данных ICEBERG тренирует алгоритмы обучения с учителем и без учителя, после чего уже может оценивать вклад каждого игрока в победу команды (GameScore, оценка выступления игрока), давать конкретные рекомендации.

Например, чтобы предсказать показатель xG (ожидаемые голы, мера опасности ударов от 0 до 1) необходимо натренировать модель, в которой признаковым пространством служат различные характеристики удара, характеристики состояния игры (количество игроков на льду с обеих сторон, разница в счете и так далее) и прочие. Таргетом при этом служит булева переменная — привел ли удар к голу или нет. После предобработки все это подается на вход алгоритму обучения с учителем. Де-факто это классическая задача бинарной классификации, но со своей индустриальной спецификой.

Минимальный объем данных, который необходим для всесторонней оценки игрока, собирается за 8-10 игр, так как за это время показатели хоккеиста усредняются в достаточной мере и параметры его игры показывают более или менее объективную картину. Например, ожидаемые голы в пересчете на 20 минут (коэффициент опасности удара от 0 до 1). Форвард в зависимости от своей формы или уровня соперника в одной игре может создавать чрезвычайно опасные моменты, а в другой просто не будет получать необходимое для этого пространство. На большей дистанции его показатель ожидаемых голов будет иметь гораздо меньший разброс.

Здесь также следует учитывать специфику хоккея как командной игры: личные показатели игрока и его взаимодействие в звене — это абсолютно разные вещи. Игрок может быть звездой, но не показывать блестящий результат, если играет не на «своей» позиции или не с теми партнерами, которые ему нужны. Предсказательная аналитика, которой занимается компания ICEBERG, позволяет с высокой точностью определить, с партнерами какого типа игрок покажет эффективную игру, в то время как с другими — не очень.

Вообще, существуют два подхода к оценке действий игроков в звеньях. Первый применяется, когда у аналитика есть полная информация по сочетаниям игроков, уже выходивших на площадку. Для каждого такого сочетания можно рассчитать коэффициент эффективности — X. Второй подход используется, когда аналитику известны показатели и стиль игры только одного конкретного игрока, но нет данных о его сочетаемости с другими. Тогда, опираясь на имеющуюся информацию, аналитик может предположить, с игроками какого типа такой игрок будет играть наиболее эффективно.

Достаточно сложен и вопрос оценки сочетаний игроков в звене. По ходу матча звенья могут выполнять на поле различные задачи, поэтому придумать одну метрику для их сравнения не так просто. В среднем, эффективность звеньев хорошо показывает метрика xGFor/20 — xGAgainst/20 и ее производные (имеется в виду разница между опасностью созданных ударов и допущенных ударов, пока звено было на льду, в пересчете на 20 минут игрового времени).

Существует много нюансов в построении подобных моделей в спорте. Например, при построении обучающей выборки следует учитывать ситуации, когда игрок сыграл слабо, но его команда тем не менее выиграла, и наоборот. Для вычисления вероятности всех этих событий используются композиции алгоритмов градиентного бустинга и К-среднего, которые позволяют достаточно точно оценить эффективность игрока в конкретном матче. Данных для подобного обучения требуется достаточно много (порядка нескольких сотен игр), однако, как и в любой задаче машинного обучения, гораздо более важна грамотная предобработка данных.

По большому счету, отмечают представители компании ICEBERG, для работы с конкретной командой важно не сколько именно игр с ее участием было снято, а сколько было снято ее игроков и какого объема датасет накопился на каждого из них. Например, в ходе подготовки олимпийской сборной из России по хоккею процесс затянулся: сборная не всегда выходила на матчи в оптимальном составе, были притирки, хоккеисты постоянно менялись. Тем не менее, по большинству игроков сборной удалось накопить информацию с 6-8 матчей.

Кроме того, необходимо было собрать информацию и о будущих соперниках. В результате в ходе подготовки к Олимпийским играм в Пхёнчхане специалисты из ICEBERG отсняли все игры двух этапов Евротура, на которых выступили почти все топовые сборные, побывали на турнире в Германии, чтобы снять игру сборных Словакии и США, сняли последний матч в конце декабря прошлого года — Кубок Шпенглера в Швейцарии. На основе всех этих данных, в тесном контакте с тренерским штабом нашей сборной, удалось проанализировать сильные и слабые стороны каждого потенциального соперника, оценить потенциальный состав сборной из России, подобрать каждому хоккеисту подходящую позицию.

Конечно, следует понимать, что предсказательная аналитика ICEBERG не позволяет ни моделировать будущие игры, ни даже предсказывать их результат со сколько-нибудь высокой точностью. Для моделирования игровых ситуаций необходима либо сложная заскриптованная система наподобие тех, которые используются в компьютерных играх, либо сложная мультиагентная система обучения с подкреплением, которая сейчас активно изучается в OpenAI, DeepMind и прочих технологических гигантах. Пока целесообразность применения таких систем в хоккее невысока.

В то же время, для предсказания результатов матчей специалистам по машинному обучению требуется большое количество данных и их правильная предобработка. Компания ICEBERG планирует в ближайшее время сделать несколько прототипов и посмотреть, что из этого получится. Как и при решении любой задачи машинного обучения, необходимо сначала создать прототип, а затем оценить его текущую и потенциальную эффективность. По словам специалистов компании, тот объем и качество данных, которые они собирают и обрабатывают, позволяет им быть сдержанными оптимистами. Со временем они будут готовы посоперничать с прогнозами букмекеров.

Тем не менее, отмечают в ICEBERG, современная спортивная индустрия пока не очень открыта новым технологиям и в целом относится к ним скорее с недоверием. Так, представители хоккейных клубов привыкли собирать данные вручную, с помощью, например, проверенных студентов из спортивных вузов, как это делалось еще 20–30 лет назад. Более молодое поколение понимает значение компьютерных алгоритмов, старается адаптироваться к новым реалиям в технологической составляющей спортивного мира. Например, аналитический штаб сборной из России по хоккею высоко оценил технологию ICEBERG и успешно внедрил ее для подготовки к Олимпийским играм в Корее.

Для того чтобы побороть это недоверие, ICEBERG организует различные тесты с потенциальными клиентами. Например, в случае с хоккейным клубом Red Bull Salzburg состоялся тест на точность различных методов сбора данных, где в ходе одного и того же матча (две игры плюс тренировка) были использованы три варианта отслеживания игроков: ручной сбор данных, сбор с помощью чипов на экипировке и третий способ — с помощью компьютерного зрения по технологии ICEBERG. Точность второго и третьего способов оказалась идентичной и далеко обогнала точность первого способа. Но использовать чипы гораздо дороже и технически более сложно, чем оптический трекинг с трех стационарных камер ICEBERG.

Компания ICEBERG прошла долгий путь в хоккее, прежде чем заработала себе репутацию в индустрии. Ключевым моментом стал контракт с одной из команд КХЛ. После этого клубы оценили продукцию ICEBERG, компания вышла на уровень хоккейных федераций и олимпийской сборной. Ее также заметили IT-гиганты, такие как Microsoft, Nvidia. Так, Microsoft в рамках программы поддержки IT-стартапов Bizspark предоставила ICEBERG доступ к комплекту лицензионных инструментов разработки и своему софту, включая облачные ресурсы Azure. Также ICEBERG является участником программы Nvidia Inception по поддержке стартапов, в частности использует графические процессоры для высокопроизводительных вычислений.

Есть ли у специалистов по машинному обучению в спортивной аналитике возможность войти в другие виды спорта? В ICEBERG уверены, что есть: их подходы и алгоритмы, в принципе, применимы к футболу, баскетболу, волейболу — любым игровым видам, в которых с помощью панорамного видео можно получить устойчивую картину происходящего на поле. Вот с фехтованием было бы сложнее из-за малой амплитуды движения спортсмена по сравнению с хоккеем. Но и там, в принципе, машинное обучение может найти себе применение, особенно если технологию компьютерного зрения заменить на использование датчиков движения.