Математические ставки. Подсчет количества данных для прогноза

Микаел Григорян

После теоретической артподготовки в прошлой статье настало время заняться подсчетом требуемого количества данных для нашей выборки. Гуманитарии, осторожно – это может оскорбить ваши чувства.

Подсчет количества данных для прогноза

Вот наша искомая формула:

n=[zα/2⋅σE]2

Если бы всем все было понятно, на этом можно было бы закончить. Но это не так. Следовательно есть необходимость расшифровки и пояснений:

E – погрешность оценки;
σ – стандартное отклонение;
z_α/2 – критическое значение.

Из этих терминов первый – это ошибка измерения, которую надо минимизировать за счет увеличения количества данных. Остальные два требуют более аккуратного объяснения. В любом учебнике по статистике вы найдете подробное их толкование.

Стандартное отклонение – это сумма разницы квадрата отклонений от среднего значения.

σ2=(x1-x¯)2+(x2-x¯)2+…(xn-x¯)2n-1

Критическое значение указывает на границы допустимого отклонения от среднего значения. Если наши расчеты попали за его границы, то мы можем воскликнуть, по примеру Станиславского, «не верю!». Тем самым мы выражаем сомнение в том, что верно определили центральное значение.

Колоколообразная кривая

Давайте рассмотрим рисунок, на котором изображено нормальное распределение или распределение Гаусса, названное в честь честь великого немецкого ученого, который его открыл. Карл Фридрих Гаусс сделал так много за свою жизнь, что в это трудно поверить. Астрономическими измерениями он занимался так много и так плодотворно, что благодаря этим работам мы знаем, что такое метод наименьших квадратов и нормальное распределение.

Гаусс знал толк в измерениях и погрешностях. Он заметил, что погрешности измерения распределяются не абы как, а согласно симметричной кривой с формой колокола. Дальнейшие статистические наблюдения за явлениями природы, физическими размерами людей, случайными событиями обнаружили универсальный характер этого закона, который поэтому и стал называться нормальным.

На рисунке стандартное нормальное распределение, то есть приведенное в удобный для расчетов вид с нулевым средним значением и стандартным отклонением, равным единице. На нем видны деления с шагом равным σ. События, которые отдалены от среднего значения более чем на 2σ, произойдут с вероятностью 2,28%, с 3σ – 0,13%. Это уже то, что называется «когда рак на горе свистнет». Критическое значение можно выбрать кратным 2σ, но это чересчур строго даже по академическим стандартам.

Настало время практического примера. Посмотрим, хватит ли нам данных для того, чтобы с точностью до одного гола подсчитать, сколько мячей «Рубин» забивает у себя дома. В этом сезоне дома были сыграны матчи со следующими результатами, в обратном хронологическом порядке:

1:2, 2:1, 1:1, 0:1, 6:0, 1:0, 0:1

Подсчеты производим с помощью бесплатного статистического пакета R.

> x <- c(1,2,1,0,6,1,0) #забитые мячи «Рубина» в этом сезоне
> mean(x) #среднее значение
[1] 1.571429
> sd(x)a #стандартное отклонение
[1] 2.070197
n = (1.96*sd(x))^2
> n
[1] 16.464

Формально мы решили следующую задачу: определили необходимое количество данных для оценки среднего значения с точностью 1 гол и достоверностью 95%. Так как мы считаем отклонения в обе стороны от среднего, то в правой и левой критических областях остаток должен быть равен 2,5% для того, чтобы их сумма дала 5% Это и происходит при z_α/2, равном 1,96.

В самой первой строке мы создаем вектор, содержащий забитые мячи «Рубина» в этом сезоне. Второй строкой считаем среднее значение, в четвертой – стандартное отклонение. Затем подставляем все в нашу первую формулу. Готово!

Для того, чтобы среднее значение не отклонялось больше ,чем на 1 от нашей оценки, требуется 16 замеров. У нас их было лишь 7. Наших данных недостаточно для того, чтобы с достоверностью 95% заявить, что настоящее среднее значение не будет отлично от 1,57 более, чем на 1 гол.

С другой стороны, для «Спартака» данных более чем достаточно – из-за стабильной игры и невероятно низкой σ.

> x <- c(2,2,3,1,2,2) #забитые мячи «Спартака» в этом сезоне
> mean(x) #среднее значение
[1] 2
> sd(x) #стандартное отклонение
[1] 0.6324555
> n = (1.96*sd(x))^2
> n
[1] 1.53664

Нужно сделать оговорку, что мы оцениваем не только среднее значение, но и стандартное отклонение – σ. Именно из-за этого такая разница в количестве необходимых замеров. Стандартное отклонение могло быть другим, если бы мы включили матчи прошлого сезона, товарищеские и международные матчи. В практических задачах широкого спектра данная формула несет мало пользы, так как очень редко нам известно стандартное отклонение в то время, когда даже среднее значение мы еще только пытаемся установить. Из-за этого существуют и другие приближенные формулы расчета размера выборки.

Внимательные читатели могут возразить, что число забитых мячей в футбольном матче распределено согласно формуле Пуассона, а не Гаусса. Зачем же мы тогда применяем формулу закона нормального распределения? Все дело в Центральной Предельной Теореме, согласно которой среднее значение стремится к нормальному распределению, даже если популяция, из которой берется наша выборка, имеет иной закон распределения.

Одна формула хорошо, а две лучше

В связи с вышеназванными критическими замечаниями есть смысл вооружиться еще одной, менее строгой, но также полезной формулой подсчета количества необходимых данных. Она гораздо проще и не требует спекуляций насчет стандартного отклонения.

n=4(θ0-θ1)2,
где Θ0 и Θ1 – предполагаемые значения среднего, которое необходимо проверить.

Если с помощью этой формулы мы захотим сравнить две гипотезы о том, что среднее число μ забитых или пропущенных мячей равно 2 и 1,5, то нам понадобится 111 замеров. На практике это означает, что такой точности нам не добиться.