xFootball: Что такое xG и как превратить xG в xPoints | Авангард Манчестер Юнайтед

А. Кузнецов, О. Железнов

Последнее время в комментариях просто в геометрической прогрессии множатся различные вариации вопроса «Что такое xG?». Ссылаться на авторов других ресурсов уже становится стыдно, потому держите разбор главного футбольного тренда 2016-го от Карриковедения.

Модель xG — метод оценки качества шансов, которые команда создаёт в атаке или позволяет создать сопернику у своих ворот. Сама аббревиатура xG (сокр. от expected goals) так и переводится — «ожидаемые голы». Позднее появилось ещё несколько показателей: xA — «ожидаемые голевые пасы», xW/xD/xL — «ожидаемые победы/ничьи/поражения», xPoints — «ожидаемые набранные очки» и xGa/xAa — «допущенные ожидаемые голы/ассисты» — то есть голы и голевые пасы, которые анализируемая команда позволила создать сопернику.

Освежим знания из теории вероятностей, чтобы понять, как считаются все эти показатели: допустим, у нас есть случайный эксперимент A — «игрок бьёт по воротам». Какой игрок, как бьёт — пока неважно. У этого эксперимента есть множество исходов Ω = {«игрок пробил мимо», «удар заблокирован одним из полевых игроков», «вратарь парировал удар», «игрок попал в каркас ворот», «игрок забил гол»}. Есть ещё некоторое количество возможных исходов, вроде «игрок промазал мимо мяча» или «прилетели инопланетяне и испепелили мяч на лету», но мы опустим их для простоты понимания.

Каждый из этих исходов имеет определенную вероятность наступления, сумма которых даёт нам единицу, то есть 100%-ю вероятность того, что игрок ударил по мячу. И, собственно, вероятность наступления исхода «игрок забил гол» — это и есть значение искомого параметра xG для данного конкретного удара. После матча xG всех ударов суммируется, и мы получаем те самые цифры, графики и схемы, которые вы в последнее время так часто встречаете.

Нужно помнить, что xG — не совсем классическая вероятность. Её можно интерпретировать как таковую, но считается xG как значение функции, сглаженное логистической регрессией (чтобы попадать в диапазон от 0 до 1). xG — в первую очередь индекс качества момента, который можно интерпретировать как вероятность забить гол этим ударом. Это очень важный нюанс.

xG map for Manchester United - Burnley. This seems fine, right?

Also, people overrate Zlatan as a finisher. His greatness lies elsewhere. pic.twitter.com/OwUf5us0EE

— Caley Graphics (@Caley_graphics) October 29, 2016

Не будем подробно останавливаться на истории появления xG, потому что она всё ещё пишется, но отдельного упоминания заслуживают норвежский тренер Эгил Ольсен, ещё 20 лет назад заложивший основы этой модели во время своей работы с национальной сборной, и английский журналист Майкл Кэйли, год назад опубликовавший статью Premier League Projections and New Expected Goals и ставший одним из главных популяризаторов модели.

Впрочем, употреблять слово «модель» в единственном числе здесь не совсем верно, на данный момент существует несколько методов подсчёта xG, которые отличаются подходом к расчету (некоторые модели используют лишь положение на поле, некоторые вообще основаны на количестве действий в штрафной соперника и так далее).

В данной статье мы остановимся на модели Майкла Кэйли. В попытке создать как можно меньше формул, но при этом сохранить нюансы различных видов шансов, Майкл остановился на 6 типах ударов по воротам:

прямые удары со штрафного;
удары после обыгрыша вратаря;
удары головой после навеса;
удары головой после других типов передач;
удары другими частями тела после навеса;
так называемые «обычные» удары — удары, нанесённые не головой и после передачи, отличной от навеса.

Да, пенальти и автоголы в модели Кэйли не учитываются и просто записываются в карточку результата матча как дополнительный статистический параметр. Исключение пенальти можно понять, потому как от пробивающего игрока ждут 100% гола, приравнивая удар с точки к 1,0 xG, что не совсем верно — на самом деле такой удар весит 0,8±0,05 в зависимости от лиги и сезона. Автоголы же абсолютно случайны, оценить вероятность автогола в матче просто невозможно.

Удары были дифференцированы именно так, потому что множества ударов каждого типа имеют различные (но схожие для ударов одного типа) кривые зависимости вероятности забить гол от угла и расстояния до ворот. Кроме этих факторов, учитываются позиция пасующего и тип атаки (заслуживающая упоминания статья о качестве дальних ударов). Вопреки расхожему мнению, мастерство вратаря и так называемое «умение завершать атаки» (англ. «finishing») бьющего игрока влияют на вероятность гола гораздо меньше, чем перечисленные выше факторы.

Это легко можно доказать с помощью коэффициента корреляции — статистической зависимости двух величин друг от друга (изменение одной величины влечёт за собой изменение другой): лишь для игроков, наносящих за сезон более 250 ударов, коэффициент корреляции «финишинга» принимает сколько-нибудь значимое значение. Чтобы это проверить, нужно взять игроков, разбить все их удары на две выборки одинакового размера и проверить, существует ли какая-то корреляция. Для убедительности стоит повторить это действие несколько раз. Коэффициент корреляции считается сильным, если принимает значение от 0,7 (или −0,7 если корреляция отрицательная) и больше. player_finishing_by_bucket-0

Premier League Projections and New Expected Goals

Как мы видим из графика выше, существует очень слабая связь между качеством шансов и их конвертацией для игроков, нанесших более 250 ударов за последние 5 лет. Исходя из этого, можно сказать, что мастерство нападающего выражается в другом — в более качественных шансах. Умение открыться и найти мяч в штрафной соперника — тот самый пресловутый инстинкт хищника, который делает игрока нападающим топ-уровня.

У вратарей же вообще нет никакой сколько-нибудь значимой корреляции, потому что если игрок наносит удар весом 0,6–0,8 xG — с одинаковой вероятностью его пропустят как Де Хеа с Акинфеевым, так и Гатальский. Но ведь мастерство топ-вратаря далеко не заканчивается на (не)умении отражать «мёртвые» удары.

В первую очередь, проблема отсутствия какой-либо зависимости кроется в объёме выборки — очень важном для статистического анализа понятии. Кэйли приводит отличный пример: в предпоследнем сезоне НХЛ Александр Овечкин совершил 795 бросков по воротам, Стефен Карри в том же сезоне 1341 раз бросил мяч в кольцо в НБА. В футболе же есть только два игрока, ударившие по воротам более 1000 раз за последние 6 лет (исключая пенальти). Догадываетесь, как их зовут?

shot_conversion-0
Premier League Projections and New Expected Goals

«И, собственно, к чему всё это?» — спросите вы. «Всё это» — ещё одна попытка осознать и описать хотя бы часть игры в футбол с помощью статистического анализа, преследующая две цели: понять, насколько хорошо команда создаёт и реализует свои моменты и насколько реальные результаты команды (в которые частенько вмешивается его величество Случай) отличаются от «сферических в вакууме». С первым всё просто — в один гол конвертируется примерно 0,6–0,8 xG, значит если анализируемая команда наиграла хотя бы на это количество — забить минимум раз она точно заслужила. Со вторым всё гораздо интереснее: удача играет большую роль в футболе из-за пресловутого малого количества матчей и малой результативности, просто сравните его с баскетболом и бейсболом и поймёте, почему «просчитать» футбол гораздо сложнее.

Перейдём к xPoints. Допустим, играют команды А и B, и команда А создала 10 шансов по 0,2 xG каждый, а команда B — 10 шансов по 0,1 xG. Маловероятно, что матч завершится со счётом 10–10, так же маловероятно, что команда B выиграет 3–0... Хотя в таком фортунозависимом спорте, как футбол, всё возможно! В теории вероятностей есть формула полной вероятности, которая позволяет вычислить вероятность интересующего события через условные вероятности этого события. В случае матча, в котором было создано по 10 моментов с каждой стороны, нужно учесть вероятность наступления каждого потенциально возможного исхода: 0–0, 1–0, 0–1, 1–1, 2–1 и так далее до 10–10.

Затем с помощью формулы полной вероятности необходимо вычислить вероятность победы команды А, вероятность ничьей и вероятность победы команды B. Эти величины нужны, чтобы получить математическое ожидание (или среднее значение случайной величины) набранных командой очков, которое считается по формуле «кол-во очков, получаемых за победу, умножить на вероятность победы + кол-во очков, получаемых за ничью, умножить на вероятность ничьей». Готово — мы получили примерное количество очков, которое команда должна была набрать за матч.

«Что за бред, как количество очков может быть дробным? Как команда может набрать 1,7 или 0,3 очка?» — спросите вы. Тут необходимо понять, что xPoints — это не реальное количество очков, на которое наиграла команда, а некий показатель качества игры. Да, обычные очки, присуждаемые за победу/ничью — это тоже показатель качества, но значение этого показателя распределяется дискретно, то есть принадлежит множеству [0, 1, 3].

Дискретное значение подразумевает собой конечное число вероятностей, тем не менее довольно часто случаются матчи, после которых сложно сказать однозначно, что одна команда была явно сильнее другой. Поэтому для моделей, оценивающих качество игры команды, необходимо брать математическое ожидание величины, а не конкретное значение из множества выше. Оценив разницу реальных очков и xPoints, можно сделать выводы об удаче, сопутствующей команде, и понять, какие команды явно прыгают выше головы, а какие, наоборот, не реализуют свои шансы должным образом.

Составив таблицы xPoints для нескольких предыдущих сезонов, можно сказать, что в целом они служат хорошим ориентиром. В сезоне 2013/14 много команд действительно показали хорошую результативность, особенно «Ливерпуль», «Арсенал», «Тоттенхэм» и «Эвертон».

Из прошлогодней таблицы очевидно, что «Лестер» и «Вест Хэм» прыгнули намного выше головы. Не менее очевидно, почему Луи Ван Гал был уволен, несмотря на победу в Кубке Англии — ситуация в чемпионате была просто ужасающей. «Юнайтед» не только мало создавал, но и допускал у своих ворот слишком много опасных моментов — это признак верного середняка и отсутствия прогресса как такового. При этом утверждение, что многие команды выступили ниже своих возможностей, более чем справедливо — только 5 команд вышли в плюс по разнице xPoints и очков по итогам сезона, из них лишь 3 — сколько-нибудь значимо.

Сезон 2016-2017 «Юнайтед», несмотря на мнимую «полосу неудач» в матчах с андердогами, завершил с практически нулевой разницей P-xP.

Конечно же, xG не может претендовать, да и не претендует, на звание «универсальной теории всего» в футболе. Но если не возводить модель в культ и не пытаться судить об игре команды, руководствуясь только xG и xPoints, она может стать интересным инструментом для оценки качества игры команды, подхода главного тренера к стратегии создания голевых моментов и конверсии шансов — или реализации бьющих игроков.

xG-карта матча «Ньюкасл» – «Юнайтед» и таблицы xPoints предоставлены xMetrics.