Букмекерська компанія Pinnacle широко відома своїми високоефективними ринками ставок, особливо на популярні види спорту, до яких відноситься і футбол. Але чи стають вони з часом ще ефективнішими? Читайте далі, щоб дізнатися відповідь!
Для початку нагадаємо ще раз, що таке ефективність ринку. Якщо висловлюватися простою мовою, то, називаючи ринок ефективним, ми маємо на увазі, що його коефіцієнти максимально точно відображають справжні ймовірності результатів подій.
Іноді гравцям досить складно засвоїти це поняття. Справа в тому, що, кажучи про ймовірність події, ми тримаємо в думці, що насправді гра може закінчитися з двома можливими результатами – перемогою (100%) нашої ставки або ж поразкою (0%). Тоді виходить, що будь-який коефіцієнт за визначенням є неточним, оскільки не відображає реальний результат.
Насправді треба уявити собі якусь модель, в якій підсумковий результат є лише одним з варіантів розвитку подій. Знання ж про те, який з безлічі варіантів відбудеться в дійсності, приховані природою невизначеності.
Уявіть, що можна було б безліч разів перегравати одні і ті ж футбольні поєдинки. В цьому випадку ми могли б спостерігати перерозподіл результатів – іноді була б перемога вдома, іншим разом – нічия або перемога в гостях. Від того, наскільки правильно очікувані ймовірності відображають цей розподіл, і залежить точність або ефективність відповідних коефіцієнтів.
На жаль, реальні результати – це єдине, чим ми володіємо при визначенні точності (ефективності) ринку ставок на футбол в букмекерській компанії Pinnacle (як, зрозуміло, і в будь-якій іншій БК). При цьому справжні ймовірності ми ніколи не дізнаємося. Однак у нас існує можливість скористатися так званим скоринговим правилом, яке вимірює точність імовірнісних прогнозів.
До таких скорингових правил належать показник Брієра, показник необізнаності (пов’язаний з ентропією Шеннона, інакше кажучи, інформацією, що закладена в результатах випадкової змінної), а також показник успішності імовірнісного прогнозу в ранжируваних категоріях (RPS). Про RPS і піде в подальшому мова в нашому матеріалі.
Отже, показник успішності імовірнісного прогнозу в ранжируваних категоріях (RPS) – це скорингове правило для імовірнісних результатів, що враховує відстань або порядок. При визначенні ефективності котирувань футбольних ставок це означає, що ми приймаємо умову, згідно з якою нічия ближче до перемоги на своєму полі, ніж до перемоги на виїзді (і навпаки для поразок). RPS вираховується за такою Формулою:
Тут r – це кількість потенційних результатів (для ринку ставок на футбольні матчі це значення дорівнює 3, тобто перемога, нічия або поразка), а pj і ej – це ймовірнісні прогнози і спостережувані результати в точці j. У якісному відношенні показник RPS є сумою квадрату різниці сумарних розподілів прогнозів і спостережень. Його значення знаходиться в межах від 0 (ідеальний прогноз) до 1 (жахливий прогноз).
Щоб проілюструвати цю формулу, розглянемо такий приклад. Візьмемо справедливі коефіцієнти (тобто без урахування букмекерської маржі) на матч англійської Прем’єр-ліги «Манчестер Юнайтед» – «Манчестер Сіті», який відбувся 8 березня 2020 року. Згідно з середніми коефіцієнтами ринку, значення ймовірності домашньої перемоги, нічиї та виїзної перемоги (ph, pd і pa) склали 0,211, 0,245 і 0,544 відповідно. У цьому матчі перемогу здобув «Манчестер Юнайтед», тому коефіцієнт eh дорівнює 1, а ed і ea рівні 0.
Спочатку потрібно вирахувати сумарні прогностичні ймовірності. Як це зробити, показано в Таблиці 1:
У Таблиці 2 робимо те ж саме для результатів:
Тепер вирахуємо квадрат їх різниці для кожного можливого результату, а потім знайдемо суму і розділимо її на 2 (тому що r – 1 = 2, якщо r дорівнює 3) – див. Таблицю 3:
Як бачимо, показник RPS для цього матчу виявився досить високим – 0,459 – оскільки його результат (перемога «Манчестер Юнайтед», який не був фаворитом) виявився непередбачуваним. У тому разі, якби переміг «Манчестер Сіті», RPS склав би тільки 0,126.
Явною перевагою використання скорингового правила, що враховує відстань, є можливість генерувати менший показник нічиїх для рівних за силою команд. «Бернлі» з «Тоттенхемом» зіграли внічию 7 березня. При цьому шанси кожної з команд на перемогу оцінювалися однаково (35,7%). Показник RPS склав 0,127, хоча нічия вважалася найменш імовірним з трьох можливих результатів (28,7%). Якби одна з команд перемогла, показник RPS для цього матчу склав би 0,270.
Не зважаючи на те, що нічия була найменш імовірна, інтуїтивно це здається обґрунтованим значенням як мінімум з точки зору скорингового правила і відповідності ймовірностей моделі (в даному випадку, коефіцієнтів) реальними подіями. Однак подібна аргументація вважається суперечливою.
Теоретично ефективність коефіцієнтів ставок на ринку можна оцінити, підрахувавши середній показник RPS для вибірки матчів. Чим нижча оцінка, тим ефективніший ринок і точніша модель коефіцієнтів. Ми зробили розрахунки для великої вибірки (більше 162 тисяч) футбольних матчів, які пройшли по всьому світу з 2007 по 2017 роки. При цьому середній показник RPS для коефіцієнтів лінії закриття БК Pinnacle склав 0,2046.
Без будь-якої точки прив’язки складно зрозуміти, що значить це число і як з його допомогою оцінити точність коефіцієнтів ставок. Відомо, що в масштабах окремо взятого матчу ці коефіцієнти «неправильні» з точки зору детермінізму. Але наскільки? Ідеальна оцінка дорівнює 0, але, зрозуміло, жодна модель коефіцієнтів не зможе досягти такого значення.
Найпростіша модель коефіцієнтів, якою можна скористатися, – це звичайне вгадування. Використовуючи генератор випадкових чисел в Excel, ми рандомізували ймовірності для домашньої перемоги, нічиєї та виїзної перемоги, після чого порахували коефіцієнти RPS на основі того ж набору фактичних результатів матчів. Середній показник RPS при моделюванні методом Монте-Карло склав 0,293. Очевидно, що як прогностична модель коефіцієнти лінії закриття БК Pinnacle статистично набагато кращі за довільне вгадування (на 451 пункт середньоквадратичного відхилення).
Однак усі любителі футболу знають, що домашня перемога значно ймовірніша за нічию або перемогу на виїзді, принаймні, в більшості випадків. Вивчення архівів даних показує, що близько 45% матчів закінчуються домашньою перемогою, а приблизно 27% і 28% – нічиєю і виїзною перемогою відповідно. Якщо спробувати застосувати ці цифри до кожного матчу вибірки, то показник RPS опуститься до значення 0,225, яке перевершує вгадування, але все одно значно поступається за точністю коефіцієнтам лінії закриття БК Pinnacle.
Як співвідносяться коефіцієнти лінії відкриття і лінії закриття Pinnacle? Багато хто на рівні інтуїції розуміє, що чим більше усталеним є ринок ставок, що виражається в підвищеній активності і більшому обігу коштів, що представляють різні погляди, тим точнішими стають коефіцієнти.
Середній показник RPS для вибірки матчів склав 0,2059. Це вище, ніж для коефіцієнтів лінії закриття, хоча різниця несуттєва. Чи свідчить така незначна різниця про збільшення ефективності коефіцієнтів між лініями відкриття і закриття ринку?
Це можна перевірити, зокрема, визначивши, наскільки вдалими або невдалими є ці значення. Не варто забувати, що результат матчу багато в чому залежить від удачі; це явище називається випадковістю, або статистичною невизначеністю. Неможливо щоразу отримувати один і той же результат. Фактичні результати – це лише один з 3 в 162 282 ступені можливих варіантів розвитку подій.
Замість того, щоб використовувати фактичні результати, спробуємо їх рандомізувати, визначивши ймовірності, згідно з коефіцієнтами ліній відкриття і закриття БК Pinnacle, щоб отримати діапазон очікуваних показників RPS за допомогою моделювання методом Монте-Карло.
Для коефіцієнтів лінії закриття очікуваний (тобто середній) показник RPS склав 0,2045 з середньоквадратичним відхиленням 0,0003. Це означає, що приблизно дві третини значень показника RPS для моделі коефіцієнтів лінії закриття знаходяться в межах від 0,2042 до 0,2048. Те ж стосується і показників RPS фактичних результатів. Приблизно 99,8% знаходяться в межах трьох пунктів середньоквадратичного відхилення, тобто від 0,2036 до 0,2054. Схожим чином середнє значення коефіцієнтів лінії відкриття склало 0,2056 з усе тим же середньоквадратичним відхиленням 0,0003.
Оскільки різниця між фактичними показниками RPS для коефіцієнтів ліній відкриття і закриття становить 0,13 (або більше чотирьох пунктів середньоквадратичного відхилення), це свідчить про статистично вагому різницею між двома моделями коефіцієнтів, з чого можна зробити висновок, що коефіцієнти лінії закриття і справді ефективніші (точніші), ніж коефіцієнти лінії відкриття. Таким же чином застосування одностороннього t-критерію до фактичних показників RPS матчу для коефіцієнтів ліній відкриття і закриття забезпечує p-значення 0,001 (що приблизно дорівнює трохи більше трьом пунктам середньоквадратичного відхилення).
Так стали ефективнішими коефіцієнти ставок на футбол від букмекерської компанії Pinnacle чи ні? Ми розподілили показники RPS за роками і відобразили отриману тенденцію на наведеній нижче Діаграмі 1:
Не зважаючи на значну дисперсію в суміжних роках, ефективність поступово все ж підвищується. При цьому коефіцієнти лінії закриття випереджають за темпами зростання ефективності коефіцієнти лінії відкриття. Середній показник RPS для коефіцієнтів лінії відкриття відображає точність моделі, за якою БК Pinnacle встановлює коефіцієнти, в той час як середній показник RPS для коефіцієнтів лінії закриття відображає всі моделі клієнтів БК Pinnacle на додаток до її власної. У той же час це свідчить і про зростання числа клієнтів БК Pinnacle.
Існує думка, що отримати вигоду легше на не дуже популярних і тому менш ефективних ринках, ніж на тих, де розміщує ставки більшість гравців. Це насправді так, тим більше, що БК Pinnacle застосовує різні обмеження ставок для різних ліг з метою контролю ризиків
Щодо не найпопулярніших чемпіонатів набагато менше інформації, до того ж їм властива велика невизначеність і дисперсія, тому букмекерська компанія Pinnacle не дає клієнтам можливість зловживати підвищеною похибкою, обмежуючи ліміти ставок. Для будь-якого нижчого дивізіону однієї з країн Європи обмеження може досягати всього лише кількох тисяч гривень. Зате на матчі топових ліг або єврокубків можна поставити і суми, які становлять сотні тисяч гривень.
На Діаграмі 2 дані з Діаграми 1 розбиті на категорії популярних і не дуже популярних футбольних змагань. Поділяючи ліги на «великі» і «малі», ми керувалися суб’єктивними критеріями. У «популярну» категорію увійшли елітні дивізіони Англії, Шотландії, Іспанії, Італії, Німеччини та Франції, а також Ліга чемпіонів, Ліга Європи, чемпіонат Європи та чемпіонат світу, матчі яких склали приблизно 15% вибірки.
Виокремимо два моменти. По-перше, у «популярних» ринків середній показник RPS нижчий, ніж у «непопулярних». При цьому статистично різниця між ними величезна. Для коефіцієнтів ліній відкриття і закриття шанс такого результату за випадковістю дорівнює приблизно 1 до 50 мільярдів. По-друге, «популярні» ринки продемонстрували тенденцію до зниження показника RPS, а значить, і до підвищення ефективності за набагато менший часовий проміжок. У той же час показники «непопулярних» ринків майже не змінилися.
Чим обумовлена стрімка тенденція великих ринків до підвищення ефективності? Це можна пояснити тим, що інтерес клієнтів до «великих» ринків зростає швидше, ніж до «малих». Що не викликає подив, з огляду на збільшення реклами ставок на спорт в інтернеті, яка зосереджена на найбільших змаганнях.
Однак, чи впливає взагалі підвищена ефективність на нижчий середній показник RPS великих ринків? Це може бути одним з можливих пояснень. Інше ж полягає в тому, що в «великих» змаганнях частіше виокремлюються популярні фаворити і аутсайдери з вищими коефіцієнтами. Іншими словами, у них вища дисперсія за трьома можливими результатами матчу.
Припустимо, складена модель на матч прогнозує ймовірності 45%, 27% і 28% для домашньої перемоги, нічиєї та гостьової перемоги відповідно. Якщо ця модель правильна, очікуваний показник RPS складе 0,225. Статистична невизначеність, обумовлена випадковими впливами під час матчу, вказує на те, що фактичний показник складе 0,191 (для домашньої перемоги), 0,140 (для нічиєї) або 0,360 (для гостьової перемоги), але якщо такі матчі перегравати нескінченну кількість разів, середній показник RPS складе 0,225.
Припустимо інші відповідні показники моделі – 70%, 20% і 10%. Дисперсія за трьома можливим результатами буде більшою, як і дисперсія за трьома можливими показниками RPS (домашня перемога – 0,05, нічия – 0,25, виїзна перемога – 0,65), але очікуваний показник RPS буде меншим – 0,150.
Якщо допустити, що обидві запропоновані моделі правильні, показник RPS буде нижчим у випадку більшої визначеності хоча б одного конкретного результату. Таким чином стає очевидним, чому середній показник RPS для великих ринків нижчий, ніж для малих. На «популярних» ринках 5% коефіцієнтів нашої вибірки передбачали ймовірність перемоги понад 70%. На «непопулярних» таких коефіцієнтів було лише 2%. Точно так же більше 20% коефіцієнтів на «великих» ринках прогнозували перемогу з ймовірністю нижче 20%, а на «малих» – тільки 13%.
Якщо мати на увазі фаворитів «популярних» змагань, що проходили в період вибірки, таких як мадридський «Реал», «Барселона», «Ювентус», «Манчестер Сіті», «Челсі», «ПСЖ» і «Баварія», ця різниця здається обґрунтованою. У «великих» змаганнях більше популярних лідерів, і відповідно, більше андердогів. Оскільки коефіцієнти відображають асиметричність передбачуваних ймовірностей, вони мають більш нерівне середнє значення в «великих» змаганнях.
Давайте тепер припустимо, що друга модель в нашому експерименті абсолютно неправильна. Припустимо, що справжні ймовірності насправді 60%, 25% і 15%. В такому випадку очікуваний показник RPS підніметься до значення 0,190, оскільки в дійсності виїзних перемог більше, ніж повинно бути відповідно до моделі. Проте очікуваний показник RPS все одно буде нижчим, аніж для матчів, результат яких прогнозує перша модель. Це створює враження точнішого набору прогнозів, але нам відомо, що це не так. Вони лише здаються точнішими через більшу дисперсію ймовірностей трьох можливих результатів для даної вибірки матчів.
Систематичну невизначеність (або похибку) в моделі також називають епістемічною невизначеністю. Складність полягає в тому, щоб визначити наявну ступінь систематичної невизначеності в вибірках показників RPS. Неможливо зробити висновок, ґрунтуючись на одних числових значеннях показників. Коефіцієнти «популярних» футбольних ринків можуть здатися точнішими (і ефективнішими) з огляду на менший середній показник RPS, але ми вже переконалися в тому, що це не зовсім так. Менший середній показник RPS не обов’язково свідчить про точнішу модель прогнозу.
Отже, показник успішності імовірнісного прогнозу в ранжируваних категоріях (RPS) можна використовувати для визначення точності імовірнісних прогнозів на ринку футбольних ставок. За його допомогою можна побачити, що коефіцієнти лінії закриття ефективніші, ніж коефіцієнти лінії відкриття, і ця тенденція посилюється з року в рік. Крім того, хоч популярні ринки ефективніші, це в першу чергу пояснюється наявністю більшого числа популярних лідерів.
У той же час епістемічна невизначеність, властива моделям, за допомогою яких прогнозуються ймовірності результатів, обмежує використання цих показників для оцінки точності відповідних моделей.
Висновок – робити судження про ефективність ринку футбольних ставок треба дуже обачно. Головна проблема полягає в тому, що нам ніколи не будуть відомі істинні ймовірності результатів футбольних матчів, в іншому випадку ми вже могли б стати мільярдерами.