В колонке «Математические ставки» я время от времени упоминал о том, что данных должно быть много для того, чтобы прогноз был точным. Давайте попробуем определить нужное количество данных, чтобы зря не тратить усилия и машинное время. Тут прямая зависимость: чем больше данных, тем меньше центробежная сила погрешностей измерения и оценки.
Сразу возникает вопрос: для чего именно много или мало данных – для прогноза, поиска значимой корреляции или проверки гипотезы? Мы получим ответ, если научимся определять взаимосвязь между амплитудой флуктуаций и объемом данных. Когда мы научимся одно выводить из другого, тогда сможем самостоятельно измерить в килобайтах требуемые данные для перечисленных статистических операций.
Тут нужен некоторый минимум статистической терминологии, чтобы не запутаться:
Чаще всего статистический анализ представляет собой процесс в три этапа:
Классический случай такого анализа – социологический опрос. Всех граждан страны опрашивать каждый раз слишком накладно, да и незачем. Поэтому в социологическом опросе обычно принимает участие несколько сот или несколько тысяч человек. Обработать данные не составляет особого труда. Сложнее построить репрезентативную выборку, охватив все слои и группы населения.
Есть более предметный пример, но также связанный с голосованием. Если мы используем коллективный разум через онлайн-голосование на ВК-страничке сайта, то очень скоро набирается требуемое количество голосов. Однако возникают вопросы к репрезентативности данной выборки: некоторые группы болельщиков могут в ней отсутствовать.
В другом случае, если требуется сделать прогноз на основе футбольной статистики забитых и пропущенных мячей, у нас нет претензий к качеству выборки, только к размеру. Особенно когда дело касается таких турниров, как ЧМ по футболу или Кубок Конфедераций. Выборки как таковой не было для матча Россия – Новая Зеландия и некоторых других.
В остальных случаях футбольную выборку делаем так, чтобы туда попали все матчи, в которых команда не сильно отличается от текущей. Для этого нежелательно копать на глубину более двух сезонов. В противном случае выборка не будет отвечать реалиям сегодняшнего дня. Это подходит одинаково хорошо как для клубных турниров, так и для сезонов сборной страны. Естественно, что клубы успевают за сезон провести большее количество игр. Из-за этого выборка по клубам получается неплохо, особенно к концу игрового сезона.
Итак, худо-бедно выборка у нас есть. И теперь самое время сформулировать к ней вопрос.
Например, такой: правда ли, что математическое ожидание μ = 1 для турнира? Это выдуманный пример, все совпадения с чем угодно случайны. Такая формулировка называется гипотезой. Но как мы знаем, одна-единственная гипотеза туманит мозг, поэтому есть и альтернативная гипотеза: μ > 1.
H0: μ = 1
H1: μ > 1
Внимательные читатели уже наверняка заметили в таблице знакомые контуры распределения Пуассона. На помощь призываем Лемму Неймана-Пирсона, откуда берем формулу соотношения функций правдоподобия. Пропуская нудные подробности, после недолгих манипуляций с экспонентами и логарифмами получаем критерий приема и отбраковки нулевой гипотезы H0:
∑Xi≥C
Это означает, что если сумма значений случайной величины превысит некую константу С, то нулевую гипотезу следует отвергнуть. С нашими данными получилось следующее:
P(∑Xi≥54|μ=1)=0.000487
Вероятность такого расклада ничтожна, для распределения Пуассона с μ = 1 и C = 54 – количество травматических инцидентов. Мы не принимаем такое редкое событие с вероятностью P = 0.000487 и, следовательно, H0 – ложно, а H1 – истинно. Любопытно, что, посчитав математическое ожидание, напрямую из выборки получаем 54/33 = 1.636. Казалось бы, несильно отличается от предполагаемого нами значения 1, но это лишь кажущаяся близость значений.
Если теперь мы проведем расчеты для μ = 1.5, то вероятность погрешности составит <0.05. И мы сможем построить интервал значений, в котором будет находиться переменная травматизма с надежностью 95%. Для этого достаточно имеющихся 54 результатов наблюдений.
Чтобы определить необходимое количество данных для статистической модели, необходимо знать и уметь несколько вещей;
В этой статье мы поверхностно обсудили последний этап, а он заслуживает большего внимания. В следующий раз вычисления займут свое достойное место, а кроме этого вы узнаете о том, сколько наблюдений позволят сузить погрешность до < 0.01 – менее 1%, и как различать ошибки первого и второго рода.