Математические ставки. Сколько надо данных для прогноза на спорт?
Содержание
Сразу возникает вопрос: для чего именно много или мало данных – для прогноза, поиска значимой корреляции или проверки гипотезы? Мы получим ответ, если научимся определять взаимосвязь между амплитудой флуктуаций и объемом данных. Когда мы научимся одно выводить из другого, тогда сможем самостоятельно измерить в килобайтах требуемые данные для перечисленных статистических операций.
Читайте также:
- Выбрать лучшего букмекера для ставок на спорт
- Прогнозы на сегодня от профессионалов
- Как выбрать букмекерскую контору – советы «РБ»
- Бездепозитные бонусы букмекерских контор
- Как не проиграть первую ставку – 6 советов новичку
Как построить выборку?
Тут нужен некоторый минимум статистической терминологии, чтобы не запутаться:
- популяция – множество всех объектов, среди которых проводится исследования;
- выборка – подмножество, часть объектов из всей популяции, которая непосредственно участвует в исследовании;
- репрезентативная выборка – та выборка, которая должным образом обобщает популяцию.
Чаще всего статистический анализ представляет собой процесс в три этапа:
- Из всей популяции берется выборка объектов. Этот этап исключительно важен. Выборка должна быть не абы какая, а репрезентативная.
- На базе этой выборки строят модели на основе известных законов распределения случайных величин.
- Выводы предыдущего этапа обобщаются на всю популяцию.
Классический случай такого анализа — социологический опрос. Всех граждан страны опрашивать каждый раз слишком накладно, да и незачем. Поэтому в социологическом опросе обычно принимает участие несколько сот или несколько тысяч человек. Обработать данные не составляет особого труда. Сложнее построить репрезентативную выборку, охватив все слои и группы населения.
Есть более предметный пример, но также связанный с голосованием. Если мы используем коллективный разум через онлайн-голосование на ВК-страничке сайта, то очень скоро набирается требуемое количество голосов. Однако возникают вопросы к репрезентативности данной выборки: некоторые группы болельщиков могут в ней отсутствовать.
В другом случае, если требуется сделать прогноз на основе футбольной статистики забитых и пропущенных мячей, у нас нет претензий к качеству выборки, только к размеру. Особенно когда дело касается таких турниров, как ЧМ по футболу или Кубок Конфедераций. Выборки как таковой не было для матча Россия — Новая Зеландия и некоторых других.
В остальных случаях футбольную выборку делаем так, чтобы туда попали все матчи, в которых команда не сильно отличается от текущей. Для этого нежелательно копать на глубину более двух сезонов. В противном случае выборка не будет отвечать реалиям сегодняшнего дня. Это подходит одинаково хорошо как для клубных турниров, так и для сезонов сборной страны. Естественно, что клубы успевают за сезон провести большее количество игр. Из-за этого выборка по клубам получается неплохо, особенно к концу игрового сезона.
От выборки до гипотезы
Итак, худо-бедно выборка у нас есть. И теперь самое время сформулировать к ней вопрос.
Например, такой: правда ли, что математическое ожидание μ = 1 для турнира? Это выдуманный пример, все совпадения с чем угодно случайны. Такая формулировка называется гипотезой. Но как мы знаем, одна-единственная гипотеза туманит мозг, поэтому есть и альтернативная гипотеза: μ > 1.
H0: μ = 1
H1: μ > 1
Внимательные читатели уже наверняка заметили в таблице знакомые контуры распределения Пуассона. На помощь призываем Лемму Неймана-Пирсона, откуда берем формулу соотношения функций правдоподобия. Пропуская нудные подробности, после недолгих манипуляций с экспонентами и логарифмами получаем критерий приема и отбраковки нулевой гипотезы H0:
∑Xi ≥ C
Это означает, что если сумма значений случайной величины превысит некую константу С, то нулевую гипотезу следует отвергнуть. С нашими данными получилось следующее:
P(∑Xi ≥ 54|μ = 1) = 0.000487
Вероятность такого расклада ничтожна, для распределения Пуассона с μ = 1 и C = 54 — количество травматических инцидентов. Мы не принимаем такое редкое событие с вероятностью P = 0.000487 и, следовательно, H0 – ложно, а H1 – истинно. Любопытно, что, посчитав математическое ожидание, напрямую из выборки получаем 54/33 = 1.636. Казалось бы, несильно отличается от предполагаемого нами значения 1, но это лишь кажущаяся близость значений.
Если теперь мы проведем расчеты для μ = 1.5, то вероятность погрешности составит <0.05. И мы сможем построить интервал значений, в котором будет находиться переменная травматизма с надежностью 95%. Для этого достаточно имеющихся 54 результатов наблюдений.
Что дальше?
Чтобы определить необходимое количество данных для статистической модели, необходимо знать и уметь несколько вещей;
- произвести выборку из совокупности данных объектов – популяции;
- определить статистическое распределения случайных величин в выборке. В спорте случайные величины чаще всего характеризуются нормальным либо же пуассоновым распределением;
- выполнить вычисления – лучше на специализированных программах.
В этой статье мы поверхностно обсудили последний этап, а он заслуживает большего внимания. В следующий раз вычисления займут свое достойное место, а кроме этого вы узнаете о том, сколько наблюдений позволят сузить погрешность до < 0.01 – менее 1%, и как различать ошибки первого и второго рода.
Спасибо за Вашу помощь!
Мы ценим Вашу бдительность!
Уведомления о новых публикациях этого автора будут приходить на электронный адрес, указанный Вами при регистрации на "РБ"
Уведомления о новых прогнозах этого эксперта будут приходить на электронный адрес, указанный Вами при регистрации на "РБ"
Это значит что вы больше не будете получать уведомления о новых публикациях этого автора на ваш электронный адрес.
Это значит что вы больше не будете получать уведомления о новых прогнозах этого эксперта на ваш электронный адрес.
для меня, человека, обучающегося на направлении прикладная математика, здесь, конечно , все прозрачно. Использовании математических методов сокращает издержки и минимизирует риски, хотя и к этому приходишь не сразу.
Многабукаф
сложно…
Да сложно. Но зато познавательно для большинства ставочников, и это в скором времени поможет большенству людей ставить не на абум а с умом.
Да, есть немного. Но на самом деле это азы, это нужно чтобы задать контекст на будущее. В следующий раз будут просто примеры, вся эта сложность уходит, если пользоваться специальными программами, но все равно надо понимать что и для чего делается.