Математические ставки. Сколько надо данных для прогноза на спорт?

Сколько нужно данных для прогноза?

Сразу возникает вопрос: для чего именно много или мало данных – для прогноза, поиска значимой корреляции или проверки гипотезы? Мы получим ответ, если научимся определять взаимосвязь между амплитудой флуктуаций и объемом данных. Когда мы научимся одно выводить из другого, тогда сможем самостоятельно измерить в килобайтах требуемые данные для перечисленных статистических операций.

Как построить выборку?

Тут нужен некоторый минимум статистической терминологии, чтобы не запутаться:

популяция – множество всех объектов, среди которых проводится исследования;
выборка – подмножество, часть объектов из всей популяции, которая непосредственно участвует в исследовании;
репрезентативная выборка – та выборка, которая должным образом обобщает популяцию.

Чаще всего статистический анализ представляет собой процесс в три этапа:

Из всей популяции берется выборка объектов. Этот этап исключительно важен. Выборка должна быть не абы какая, а репрезентативная.
На базе этой выборки строят модели на основе известных законов распределения случайных величин.
Выводы предыдущего этапа обобщаются на всю популяцию.

Классический случай такого анализа – социологический опрос. Всех граждан страны опрашивать каждый раз слишком накладно, да и незачем. Поэтому в социологическом опросе обычно принимает участие несколько сот или несколько тысяч человек. Обработать данные не составляет особого труда. Сложнее построить репрезентативную выборку, охватив все слои и группы населения.

Есть более предметный пример, но также связанный с голосованием. Если мы используем коллективный разум через онлайн-голосование на ВК-страничке сайта, то очень скоро набирается требуемое количество голосов. Однако возникают вопросы к репрезентативности данной выборки: некоторые группы болельщиков могут в ней отсутствовать.

В другом случае, если требуется сделать прогноз на основе футбольной статистики забитых и пропущенных мячей, у нас нет претензий к качеству выборки, только к размеру. Особенно когда дело касается таких турниров, как ЧМ по футболу или Кубок Конфедераций. Выборки как таковой не было для матча Россия – Новая Зеландия и некоторых других.

В остальных случаях футбольную выборку делаем так, чтобы туда попали все матчи, в которых команда не сильно отличается от текущей. Для этого нежелательно копать на глубину более двух сезонов. В противном случае выборка не будет отвечать реалиям сегодняшнего дня. Это подходит одинаково хорошо как для клубных турниров, так и для сезонов сборной страны. Естественно, что клубы успевают за сезон провести большее количество игр. Из-за этого выборка по клубам получается неплохо, особенно к концу игрового сезона.

От выборки до гипотезы

Итак, худо-бедно выборка у нас есть. И теперь самое время сформулировать к ней вопрос.

Таблица 1

Например, такой: правда ли, что математическое ожидание μ = 1 для турнира? Это выдуманный пример, все совпадения с чем угодно случайны. Такая формулировка называется гипотезой. Но как мы знаем, одна-единственная гипотеза туманит мозг, поэтому есть и альтернативная гипотеза: μ > 1.

H₀: μ = 1

H₁: μ > 1

Внимательные читатели уже наверняка заметили в таблице знакомые контуры распределения Пуассона. На помощь призываем Лемму Неймана-Пирсона, откуда берем формулу соотношения функций правдоподобия. Пропуская нудные подробности, после недолгих манипуляций с экспонентами и логарифмами получаем критерий приема и отбраковки нулевой гипотезы H_0:

∑Xi≥C

Это означает, что если сумма значений случайной величины превысит некую константу С, то нулевую гипотезу следует отвергнуть. С нашими данными получилось следующее:

P(∑Xi≥54|μ=1)=0.000487

Вероятность такого расклада ничтожна, для распределения Пуассона с μ = 1 и C = 54 – количество травматических инцидентов. Мы не принимаем такое редкое событие с вероятностью P = 0.000487 и, следовательно, H₀– ложно, а H₁ – истинно. Любопытно, что, посчитав математическое ожидание, напрямую из выборки получаем 54/33 = 1.636. Казалось бы, несильно отличается от предполагаемого нами значения 1, но это лишь кажущаяся близость значений.

Если теперь мы проведем расчеты для μ = 1.5, то вероятность погрешности составит <0.05. И мы сможем построить интервал значений, в котором будет находиться переменная травматизма с надежностью 95%. Для этого достаточно имеющихся 54 результатов наблюдений.

Что дальше?

Чтобы определить необходимое количество данных для статистической модели, необходимо знать и уметь несколько вещей;

произвести выборку из совокупности данных объектов – популяции;
определить статистическое распределения случайных величин в выборке. В спорте случайные величины чаще всего характеризуются нормальным либо же пуассоновым распределением;
выполнить вычисления – лучше на специализированных программах.

В этой статье мы поверхностно обсудили последний этап, а он заслуживает большего внимания. В следующий раз вычисления займут свое достойное место, а кроме этого вы узнаете о том, сколько наблюдений позволят сузить погрешность до < 0.01 – менее 1%, и как различать ошибки первого и второго рода.