Блог букмекерської контори Pinnacle Sports підготував матеріал про вплив середніх показників на прогнозування спортивних подій та проблеми, які вони можуть створювати для гравців. «Рейтинг Букмекерів» перекладає матеріал українською.
Найпопулярніший метод обробки даних у беттингу – використання середніх показників, але чи є цей метод найбільш корисним? Модус і медіана часто найкраща альтернатива, тому їх розуміння має вирішальне значення для успішності ставок.
Через простоту багато гравців використовують середні показники для оцінки команди у статистичному вираженні. Але чи багато хто знає про обмеженість цього методу?
Приміром, роблячи ставки на загальний тотал голів у футболі, гравці можуть вважати, що вирахувавши середню кількість м’ячів, забитих за попередні ігри, вони можуть передбачити точну кількість голів, що очікується в майбутньому матчі. Але чи справді тут доречно використовувати середню результативність?
Як приклад давайте розглянемо кількість голів, забитих в англійській Прем’єр-лізі, в порівнянні з іспанською Примерою у сезоні 2013/2014. Середня кількість голів за гру у цих лігах склала 2.77 і 2.75 відповідно. Ці дані можуть привести гравця до думки, що у Ла Лізі матчі частіше граються на тотал менше 2.5, ніж в АПЛ. Проте це не так – 48.4% матчів в АПЛ закінчуються на ТМ 2.5, порівняно з 47.3% у Примері.
Хоча загальний розподіл кількості голів схожий, в АПЛ найчастіше забивають два голи за матч, а у Примері цей показник становить 3 голи, як можна зрозуміти, проаналізувавши зображення нижче. Середній показник маскує і приховує від нас цей факт.
Чому так відбувається? Хоча середні показники дають нам загальну картину результативності, вони не показують, як розподіляються голи.
Інший приклад небезпеки використання середніх показників – при ставках на гандикапи у матчах «футбольних карликів», які вважаються хлопчиками для биття у кожній відбірковій кампанії. Але чи настільки вони слабкі, якими їх намагаються показати? Середня кількість голів у їх матчах може досягати великих показників, однак ця цифра може виникнути у результаті рідкісних, але дуже великих поразок команди. У підсумку гравці помиляються, часто переоцінюючи очікувану кількість голів у матчі.
Нижче ми розглянемо альтернативи середнім показникам – модус і медіану, і використовуємо три набори чисел і два сценарії, за яких середній показник не дасть адекватну інформацію.
Розглянемо наступні набори чисел (у кожному з них середньоарифметичне дорівнює 5).
Набір А: 4, 5, 5, 5, 6
Набір B: 3, 4, 4, 4, 10
Набір C: 3, 4, 5, 6, 7
Хоча всі три набори мають однакове середнє арифметичне і сума чисел у кожному наборі дорівнює 25, вони мають зовсім різний розподіл.
Набір А можна назвати симетрично розподіленим. Два числа з п’яти однаково відхиляються у велику і меншу сторони від середнього значення: 4 менше 5, а 6 більше 5 на однакову величину.
Середня величина ідеально підходить для використання у випадках з симетричним розподілом, коли відхилення від середнього значення однакові і відбуваються однаково часто, і середня величина знаходиться в середині безлічі значень.
На противагу подібного розподілу Набір В налічує чотири числа менше середнього і тільки одне вище. Це можна назвати асиметричним розподілом.
При використанні великої бази даних гравці можуть перевірити придатність середнього показника для аналізу за допомогою інших методів вимірювання – модусу і медіани.
Медіана – це значення, яке лежить у середині розподілу, в порядку зростання або зменшення. У наборах А і В це число 5 і 4 відповідно.
Модус – це величина, що найчастіше повторюється, і в наборах А і В це також відповідно 5 і 4.
Симетричний розподіл має мати однакові середню, медіану і модус. Різниця між двома останніми величинами та середньою в Наборі В вказує на те, що це несиметричний розподіл, і тому середня не є ідеальною величиною в даному випадку.
Два набори з нашого прикладу можуть бути обидва симетрично розподілені, але поширюватися не однаково. Наприклад, Набір З симетрично розподілений, як і Набір А, тому що вони мають рівні величини, що вищі і нижчі, ніж середня, а також відхилення від середньої однакові в обидві сторони в обох наборах.
Проте хоча середня арифметична в обох наборах 5, використання середньої величини більше підходить для Набору А, оскільки він містить більшу кількість чисел, що дорівнюють середній величині. Різниця між двома цими наборами полягає у дисперсії у значеннях кожного набору. Тому ми повинні виміряти і цю дисперсію.
Щоб зробити це, гравці повинні вирахувати діапазон і стандартне відхилення. Діапазон – це різниця між максимальним і мінімальним значеннями, обчислити діапазон зовсім не складно. З іншого боку, стандартне відхилення є більш складним показником. У загальному, стосовно даної статті, ця величина відображає зміну значень у наборі щодо середньої величини.
Набір А і С мають діапазони 2 і 4 відповідно, в той час як їхні стандартні відхилення становлять 0.71 і 1.58. Якщо обидві ці величини вищі в Наборі С, ми можемо зробити висновок, що поширення в ній вище.
Розуміючи обмеженість середніх показників, перекіс розподілу і відмінності у дисперсії, гравці опиняться у більш вигідному становищі, використовуючи ці методи в прогнозуванні.