Математические ставки. Сколько надо данных для прогноза на спорт?
Сразу возникает вопрос: для чего именно много или мало данных – для прогноза, поиска значимой корреляции или проверки гипотезы? Мы получим ответ, если научимся определять взаимосвязь между амплитудой флуктуаций и объемом данных. Когда мы научимся одно выводить из другого, тогда сможем самостоятельно измерить в килобайтах требуемые данные для перечисленных статистических операций.
Как построить выборку?
Тут нужен некоторый минимум статистической терминологии, чтобы не запутаться:
- популяция – множество всех объектов, среди которых проводится исследования;
- выборка – подмножество, часть объектов из всей популяции, которая непосредственно участвует в исследовании;
- репрезентативная выборка – та выборка, которая должным образом обобщает популяцию.
Чаще всего статистический анализ представляет собой процесс в три этапа:
- Из всей популяции берется выборка объектов. Этот этап исключительно важен. Выборка должна быть не абы какая, а репрезентативная.
- На базе этой выборки строят модели на основе известных законов распределения случайных величин.
- Выводы предыдущего этапа обобщаются на всю популяцию.
Классический случай такого анализа – социологический опрос. Всех граждан страны опрашивать каждый раз слишком накладно, да и незачем. Поэтому в социологическом опросе обычно принимает участие несколько сот или несколько тысяч человек. Обработать данные не составляет особого труда. Сложнее построить репрезентативную выборку, охватив все слои и группы населения.
Есть более предметный пример, но также связанный с голосованием. Если мы используем коллективный разум через онлайн-голосование на ВК-страничке сайта, то очень скоро набирается требуемое количество голосов. Однако возникают вопросы к репрезентативности данной выборки: некоторые группы болельщиков могут в ней отсутствовать.
В другом случае, если требуется сделать прогноз на основе футбольной статистики забитых и пропущенных мячей, у нас нет претензий к качеству выборки, только к размеру. Особенно когда дело касается таких турниров, как ЧМ по футболу или Кубок Конфедераций. Выборки как таковой не было для матча Россия – Новая Зеландия и некоторых других.
В остальных случаях футбольную выборку делаем так, чтобы туда попали все матчи, в которых команда не сильно отличается от текущей. Для этого нежелательно копать на глубину более двух сезонов. В противном случае выборка не будет отвечать реалиям сегодняшнего дня. Это подходит одинаково хорошо как для клубных турниров, так и для сезонов сборной страны. Естественно, что клубы успевают за сезон провести большее количество игр. Из-за этого выборка по клубам получается неплохо, особенно к концу игрового сезона.
От выборки до гипотезы
Итак, худо-бедно выборка у нас есть. И теперь самое время сформулировать к ней вопрос.
Например, такой: правда ли, что математическое ожидание μ = 1 для турнира? Это выдуманный пример, все совпадения с чем угодно случайны. Такая формулировка называется гипотезой. Но как мы знаем, одна-единственная гипотеза туманит мозг, поэтому есть и альтернативная гипотеза: μ > 1.
H0: μ = 1
H1: μ > 1
Внимательные читатели уже наверняка заметили в таблице знакомые контуры распределения Пуассона. На помощь призываем Лемму Неймана-Пирсона, откуда берем формулу соотношения функций правдоподобия. Пропуская нудные подробности, после недолгих манипуляций с экспонентами и логарифмами получаем критерий приема и отбраковки нулевой гипотезы H0:
∑Xi≥C
Это означает, что если сумма значений случайной величины превысит некую константу С, то нулевую гипотезу следует отвергнуть. С нашими данными получилось следующее:
P(∑Xi≥54|μ=1)=0.000487
Вероятность такого расклада ничтожна, для распределения Пуассона с μ = 1 и C = 54 – количество травматических инцидентов. Мы не принимаем такое редкое событие с вероятностью P = 0.000487 и, следовательно, H0 – ложно, а H1 – истинно. Любопытно, что, посчитав математическое ожидание, напрямую из выборки получаем 54/33 = 1.636. Казалось бы, несильно отличается от предполагаемого нами значения 1, но это лишь кажущаяся близость значений.
Если теперь мы проведем расчеты для μ = 1.5, то вероятность погрешности составит <0.05. И мы сможем построить интервал значений, в котором будет находиться переменная травматизма с надежностью 95%. Для этого достаточно имеющихся 54 результатов наблюдений.
Что дальше?
Чтобы определить необходимое количество данных для статистической модели, необходимо знать и уметь несколько вещей;
- произвести выборку из совокупности данных объектов – популяции;
- определить статистическое распределения случайных величин в выборке. В спорте случайные величины чаще всего характеризуются нормальным либо же пуассоновым распределением;
- выполнить вычисления – лучше на специализированных программах.
В этой статье мы поверхностно обсудили последний этап, а он заслуживает большего внимания. В следующий раз вычисления займут свое достойное место, а кроме этого вы узнаете о том, сколько наблюдений позволят сузить погрешность до < 0.01 – менее 1%, и как различать ошибки первого и второго рода.
Сповіщення про нові публікації цього автора будуть приходити на електронну адресу, вказану вами при реєстрації на «РБ»
Сповіщення про нові прогнози цього експерта будуть приходити на електронну адресу, вказану вами при реєстрації на «РБ»
Це означає, що ви більше не будете отримувати сповіщення про нові вебінари на вашу електронну адресу електронної пошти.
Це означає, що ви перестанете отримувати сповіщення про нові відповіді цього експерта на вашу електронну адресу