T value что показывает

Основные статистики и t-критерий Стьюдента

В ходе рассмотрения примера мы будем использовать вымышленные сведения, чтобы читатель мог провести необходимые преобразования самостоятельно.

Так, допустим, в ходе исследований изучали влияние препарата А на содержание вещества В (в ммоль/г) в ткани С и концентрацию вещества D в крови (в ммоль/л) у пациентов, разделенных по какому-то признаку Е на 3 группы равного объема (n = 10). Результаты такого выдуманного исследования приведены в таблице:

исходное содержание в крови

Хотим вас предупредить, что выборки объема 10 рассматриваются нами для простоты представления данных и вычислений, на практике такого объема выборок обычно оказывается недостаточно для формирования статистического заключения.

В качестве примера рассмотрим данные 1-го столбца таблицы.

Описательные статистики

Выборочное среднее

Формула для определения среднего арифметического наблюдений T value что показывает. image002. T value что показывает фото. T value что показывает-image002. картинка T value что показывает. картинка image002(произносится «икс с чертой»):

T value что показывает. image002. T value что показывает фото. T value что показывает-image002. картинка T value что показывает. картинка image002= (12 + 13 + 14 + 15 + 14 + 13 + 13 + 10 + 11 + 16) / 10 = 13,1;

Выборочная дисперсия

T value что показывает. 8. T value что показывает фото. T value что показывает-8. картинка T value что показывает. картинка 8

Выборочная дисперсия данного показателя равна s 2 = 3,2.

Среднеквадратичное отклонение

Стандартное (среднеквадратичное) отклоне­ние — это положительный квадратный корень из дисперсии. На примере n наблюдений это выглядит следующим образом:

T value что показывает. 9. T value что показывает фото. T value что показывает-9. картинка T value что показывает. картинка 9

Мы можем представить себе стандартное отклоне­ние как своего рода среднее отклонение наблюдений от среднего. Оно вычисляется в тех же единицах (размерностях), что и исходные данные.

Коэффициент вариации

Если разделить стандартное отклонение на сред­нее арифметическое и выразить результат в процен­тах, то получится коэффициент вариации.

CV = (1,79 / 13,1) * 100% = 13,7

Ошибка выборочного среднего

1,79 / sqrt (10) = 0,57 [sqrt (x)- функция извлечения квадратного корня из х];

Коэффициент Стьюдента t (одновыборочный t-критерий)

Применяется для проверки гипотезы об отличии среднего значения T value что показывает. 2. T value что показывает фото. T value что показывает-2. картинка T value что показывает. картинка 2от некоторого известного значения m

T value что показывает. 7. T value что показывает фото. T value что показывает-7. картинка T value что показывает. картинка 7

Количество степеней свободы рассчитывается как f=n-1.

В данном случае доверительный интервал для среднего заключен между границами 11,87 и 14,39.

Для уровня доверительной вероятности 95% m=11,87 или m=14,39, то естьT value что показывает. 10. T value что показывает фото. T value что показывает-10. картинка T value что показывает. картинка 10= |13,1-11,82| = |13,1-14,38| = 1,28

Диалог Основные статистики и таблицы

В модуле Основные статистики и таблицы выберем Описательные статистики.

T value что показывает. 1. T value что показывает фото. T value что показывает-1. картинка T value что показывает. картинка 1

Откроется диалоговое окно Описательные статистики.

В поле Перменные выберем Группу 1.

T value что показывает. 2. T value что показывает фото. T value что показывает-2. картинка T value что показывает. картинка 2

Нажав на Ок, получим таблицы результатов с описательными статистиками выбранных переменных.

T value что показывает. 3. T value что показывает фото. T value что показывает-3. картинка T value что показывает. картинка 3

Чтобы посчитать t-критерий Стьюдента, в модуле Основные статистики и таблицы выберем Одновыборочный t-критерий.

T value что показывает. 4. T value что показывает фото. T value что показывает-4. картинка T value что показывает. картинка 4

Откроется диалоговое окно Одновыборочный t-критерий.

T value что показывает. 5. T value что показывает фото. T value что показывает-5. картинка T value что показывает. картинка 5

Предположим, нам известно, что среднее содержание вещества B в ткани С равно 11.

T value что показывает. 9. T value что показывает фото. T value что показывает-9. картинка T value что показывает. картинка 9

Таблица результатов с описательными статистиками и t-критерием Стьюдента выглядит следующим образом:

T value что показывает. 8. T value что показывает фото. T value что показывает-8. картинка T value что показывает. картинка 8

Нам пришлось отвергнуть гипотезу о том, что среднее содержание вещества В в ткани С равно 11.

Так как вычисленное значение критерия больше табличного (2,26), нулевая гипотеза отвергается на выбранном уровне значимости, и различия между выборкой и известной величиной признаются статистически значимыми. Таким образом, вывод о существовании различий, сделанный с помощью критерия Cтьюдента, подтверждается с помощью данного метода.

Выводы

Статистики и процедуры, включенные в одноименный модуль, условно называются основными статистиками и рассматриваются в одной группе, т.к. обычно они используются совместно, особенно на начальной, разведочной стадии анализа данных. Эти статистики являются базовыми и полезны для самых разнообразных исследований. Вычисление описательных статистик является неотъемлемой частью любого статистического анализа.

Источник

Классические методы статистики: t-критерий Стьюдента

Содержание вещества B, ммоль/г
T value что показывает. 373px William Sealy Gosset. T value что показывает фото. T value что показывает-373px William Sealy Gosset. картинка T value что показывает. картинка 373px William Sealy Gosset
У. Госсет, автор t-критерия.
Рисунок из Wikipedia

Критерий Стьюдента t относится к одному из наиболее давно разработанных и широко используемых методов статистики. Чаще всего он применяется для проверки нулевой гипотезы о равенстве средних значений двух совокупностей, хотя существует также и одновыборочная модификация этого метода. В данном сообщении я продемонстрирую, как статистические тесты, основанные на критерии Стьюдента, можно реализовать в R.

Одновыборочный t-критерий

В общем виде проверка (= тест) этой гипотезы выполняется при помощи t-критерия, который рассчитывается как отношение разницы между выборочным средним и известным значением к стандартной ошибке выборочного среднего:

Сравнение двух независимых выборок

stature можно расшифровать как «зависимость суточного потребления энергии ( expend ) от статуса пациентки ( stature )».

Сравнение двух зависимых (= парных) выборок

Если нулевая гипотеза заключается в равенстве истинного эффекта нулю, формула для парного критерия Стьюдента примет вид

Индивидуальные разницы в потреблении энергии у этих женщин составляют:

Усреднив эти индивидуальные разницы, получим

Задача заключается в том, чтобы оценить, насколько статистически значимо эта средняя разница отличается от нуля. Применим парный критерий Стьюдента (обратите внимание на использование аргумента paired = TRUE ):

Как видим, рассчитанное программой P-значение оказалось намного меньше 0.05, что позволяет нам сделать заключение о наличии существенной разницы в потреблении энергии у исследованных женщин до и после менструации. Истинная величина эффекта (в абсолютном выражении) с вероятностью 95% находится в интервале от 1074.1 до 1566.8 кДж/сутки.

Источник

Библиотека постов MEDSTATISTIC об анализе медицинских данных

Ещё больше полезной информации в нашем блоге в Инстаграм @medstatistic

Критерии и методы

t-КРИТЕРИЙ СТЬЮДЕНТА ДЛЯ НЕЗАВИСИМЫХ СОВОКУПНОСТЕЙ

– общее название для класса методов статистической проверки гипотез (статистических критериев), основанных на распределении Стьюдента. Наиболее частые случаи применения t-критерия связаны с проверкой равенства средних значений в двух выборках.

T value что показывает. gosset. T value что показывает фото. T value что показывает-gosset. картинка T value что показывает. картинка gossetУильям Госсет

1. История разработки t-критерия

Данный критерий был разработан Уильямом Сили Госсетом для оценки качества пива в компании Гиннесс. В связи с обязательствами перед компанией по неразглашению коммерческой тайны, статья Госсета вышла в 1908 году в журнале «Биометрика» под псевдонимом «Student» (Студент).

2. Для чего используется t-критерий Стьюдента?

t-критерий Стьюдента используется для определения статистической значимости различий средних величин. Может применяться как в случаях сравнения независимых выборок (например, группы больных сахарным диабетом и группы здоровых), так и при сравнении связанных совокупностей (например, средняя частота пульса у одних и тех же пациентов до и после приема антиаритмического препарата). В последнем случае рассчитывается парный t-критерий Стьюдента

3. В каких случаях можно использовать t-критерий Стьюдента?

Для применения t-критерия Стьюдента необходимо, чтобы исходные данные имели нормальное распределение. Также имеет значение равенство дисперсий (распределения) сравниваемых групп (гомоскедастичность). При неравных дисперсиях применяется t-критерий в модификации Уэлча (Welch’s t).

При отсутствии нормального распределения сравниваемых выборок вместо t-критерия Стьюдента используются аналогичные методы непараметрической статистики, среди которых наиболее известными является U-критерий Манна — Уитни.

4. Как рассчитать t-критерий Стьюдента?

Для сравнения средних величин t-критерий Стьюдента рассчитывается по следующей формуле:

T value что показывает. formula student. T value что показывает фото. T value что показывает-formula student. картинка T value что показывает. картинка formula student

5. Как интерпретировать значение t-критерия Стьюдента?

Полученное значение t-критерия Стьюдента необходимо правильно интерпретировать. Для этого нам необходимо знать количество исследуемых в каждой группе (n1 и n2). Находим число степеней свободы f по следующей формуле:

После этого определяем критическое значение t-критерия Стьюдента для требуемого уровня значимости (например, p=0,05) и при данном числе степеней свободы f по таблице (см. ниже).

Сравниваем критическое и рассчитанное значения критерия:

6. Пример расчета t-критерия Стьюдента

Решение: Для оценки значимости различий используем t-критерий Стьюдента, рассчитываемый как разность средних значений, поделенная на сумму квадратов ошибок:

Источник

Когда и как применять Критерий Стьюдента (t-test), проверка нормальности данных в среде R

T value что показывает. t test 3. T value что показывает фото. T value что показывает-t test 3. картинка T value что показывает. картинка t test 3

Наступила осень, а значит, настало время для запуска нового тематического проекта «Статистический анализ с R». В нем мы рассмотрим статистические методы с точки зрения их применения на практике: узнаем какие методы существуют, в каких случаях и каким образом их проводить в среде R. На мой взгляд, Критерий Стьюдента или t-тест (от англ. t-test) идеально подходит в качестве введения в мир статистического анализа. Тест Стьюдента достаточно прост и показателен, а также требует минимум базовых знаний в статистике, с которыми читатель может ознакомиться в ходе прочтения этой статьи.

Примечание_1: здесь и в других статьях Вы не увидите формул и математических объяснений, т.к. информация рассчитана на студентов естественных и гуманитарных специальностей, которые делают лишь первые шаги в стат. анализе.

Примечание_2: перед прочтением, я рекомендую ознакомиться с этой статьей, чтобы вспомнить базовые понятия описательной статистики, такие как медиана, стандартное отклонение, квантили и прочее.

Что такое t-тест и в каких случаях его стоит применять

В начале следует сказать, что в статистике зачастую действует принцип бритвы Оккамы, который гласит, что нет смысла проводить сложный статистический анализ, если можно применить более простой (не стоит резать хлеб бензопилой, если есть нож). Именно поэтому, несмотря на свою простоту, t-тест является серьезным инструментом, если знать что он из себя представляет и в каких случаях его стоит применять.

T value что показывает. William Gosset e1473462304964. T value что показывает фото. T value что показывает-William Gosset e1473462304964. картинка T value что показывает. картинка William Gosset e1473462304964

Нормальное распределение данных и методы его оценки qqplot и shapiro.test

Нормальное распределение данных характерно для количественных данных, на распределение которых влияет множество факторов, либо оно случайно. Нормальное распределение характеризуется несколькими особенностями:

T value что показывает. r norm 1. T value что показывает фото. T value что показывает-r norm 1. картинка T value что показывает. картинка r norm 1

Давайте создадим случайную выборку с нормальным распределением на языке программирования R, где общее количество измерений = 100, среднее арифметическое = 5, а стандартное отклонение = 1. Затем отобразим его на графике в виде гистограммы:

Ваш график может слегка отличаться от моего, так как числа сгенерированы случайным образом. Как Вы видите, данные не идеально симметричны, но кажется сохраняют форму нормального распределения. Однако, мы воспользуемся более объективными методами определения нормальности данных.

T value что показывает. qqplot. T value что показывает фото. T value что показывает-qqplot. картинка T value что показывает. картинка qqplot

Одним из наиболее простых тестов нормальности является график квантилей (qqplot). Суть теста проста: если данные имеют нормальное распределение, то они не должны сильно отклоняться от линии теоретических квантилей и выходить за пределы доверительных интервалов. Давайте проделаем этот тест в R.

Как видно из графика, наши данные не имеют серьезных отклонений от теоретического нормального распределения. Но порой при помощи qqplot невозможно дать однозначный ответ. В этом случае следует использовать тест Шапиро-Уилка, который основан на нулевой гипотезе, что наши данные распределены нормально. Если же P-значение менее 0.05 (p-value T value что показывает. shapiro test 8. T value что показывает фото. T value что показывает-shapiro test 8. картинка T value что показывает. картинка shapiro test 8

Провести тест Шапиро-Уилка в R не составит труда. Для этого нужно всего лишь вызвать функцию shapiro.test, и в скобках вставить имя ваших данных. В нашем случае p-value должен быть значительно больше 0.05, что не позволяет отвергнуть нулевую гипотезу о том, что наши данные распределены нормально.

Запускаем t-тест Стьюдента в среде R

Итак, если данные из выборок имеют нормальное распределение, можно смело приступать к сравнению средних этих выборок. Существует три основных типа t-теста, которые применяются в различных ситуациях. Рассмотрим каждый из них с использованием наглядных примеров.

Одновыборочный критерий Стьюдента (one-sample t-test)

Одновыборочный t-тест следует выбирать, если Вы сравниваете выборку с общеизвестным средним. Например, отличается ли средний возраст жителей Северо-Кавказского Федерального округа от общего по России. Существует мнение, что климат Кавказа и культурные особенности населяющих его народов способствуют продлению жизни. Для того, чтобы проверить эту гипотезу, мы возьмем данные РосСтата (таблицы среднего ожидаемого продолжительности жизни по регионам России) и применим одновыборочный критерий Стьюдента. Так как критерий Стьюдента основан на проверке статистических гипотез, то за нулевую гипотезу будем принимать то, что различий между средним ожидаемым уровнем продолжительности по России и республикам Северного Кавказа нет. Если различия существуют, то для того, чтобы считать их статистически значимыми p-value должно быть менее 0.05 (логика та же, что и в вышеописанном тесте Шапиро-Уилка).

Загрузим данные в R. Для этого, создадим вектор со средними значениями по республикам Кавказа (включая Адыгею). Затем, запустим одновыборочный t-тест, указав в параметре mu среднее значение ожидаемого возраста жизни по России равное 70.93.

Несмотря на то, что у нас всего 7 точек в выборке, в целом они проходят тесты нормальности и мы можем на них полагаться, так как эти данные уже были усреднены по региону.

T value что показывает. t test one sample. T value что показывает фото. T value что показывает-t test one sample. картинка T value что показывает. картинка t test one sample

Загрузим данные в среду R. Кроме проверки нормальности данных, будет полезно построить «график с усами», на котором можно видеть медианы и разброс данных для обеих выборок.

Как видно из графика, медианы выборок не сильно отличаются друг от друга, однако разброс данных гораздо сильнее на севере. Проверим отличаются ли статистически средние значения при помощи функции t.test. Однако в этот раз на место параметра mu мы ставим имя второй выборки. Результаты теста, которые Вы видите на рисунке снизу, говорят о том, что средняя урожайность картофеля на севере статистически не отличается от урожайности на юге (p = 0.6339).

T value что показывает. t test two samples 6. T value что показывает фото. T value что показывает-t test two samples 6. картинка T value что показывает. картинка t test two samples 6

Двувыборочный для зависимых выборок ( dependent two-sample t-test )

Заключение

Статья получилась довольно длинной, зато теперь Вы знаете: что такое критерий Стьюдента и нормальное распределение; как при помощи функций qqplot и shapiro.test проверять нормальность данных в R; а также разобрали три типа t-тестов и провели их в среде R.

Сравнение двух средних в Excel — на http://arhiuch.ru/lab20.html

Здравствуйте! Благодарю за подробное пояснение по теме t-критерия. Пытаюсь провести сравнительный анализ в своей магистерской диссертации по двум независимым выборкам. Шкал у меня несколько. В результате анализа с помощью программы SPSS какие-то значения по критерию равенства дисперсий Ливиня оказались меньше 0,05. Насколько я понимаю, использование t-критерия в этом случае будет неправомерным. Что посоветуете в этом случае?

Здравствуйте! Спасибо за Ваш комментарий. К сожалению, ни с SPSS, ни с критерием Ливиня мне не доводилось работать, поэтому помочь не в силах.

Добрый день, извините, что не по теме. Пишу дипломную работу и мне нужно оценить 2 уравнения методом максимального правдоподобия в R. Нигде не могу найти про это в интернете.Вы не знаете как это можно сделать?

Здравствуйте, Ганс!
Да, профиль действительно не мой, поэтому вряд ли могу помочь. Однако, посмотрите вот эту статью про R пакет «systemfit»: https://cran.r-project.org/web/packages/systemfit/vignettes/systemfit.pdf

Здравствуйте, Айгуль!
Вот функция, которую Вы ищете: https://www.math.ucla.edu/

Здравствуйте! Подскажите какой (и как) построить график чтобы охарактеризовать характер отличий некоторых показателей в группе за полом? Результаты по критерию Т-Стьюдента. спасибо)

Здравствуйте, Богдана!
Надо построить так называемый «ящик с усами», по-английски — boxplot.
Для этого запустите команду boxplot внутри которой сравниваемые Вами колонки с данными:
boxplot(Column_1, Column_2)
В легенде также обычно указывают значение p-valueю
Если не сможете сами разобраться, кидайте на яндекс диск свой файл, я Вам покажу решение.

Здравствуйте, спасибо за статью. У меня есть некоторые вопросы по поводу проверки на нормальность. Можно ли принять нормальность данных на основе только графического анализа? У меня получилось так, что графически данные выглядят как нормальные (идеальная колоколообразная плотность и прямая квантилей), но формальные тесты показывают, что данные ненормальные (за исключением почему-то теста Пирсона).
https://yadi.sk/i/oS2f7XY8edU_Ng — вот данные, проверял первый столбик с объемом легких (LungCap). По логике вещей, они и должны быть нормальными, в основном физические хар-ки людей, такие как рост, вес и т.д. ведь распределены нормально.

Спасибо за интересный вопрос. Я с Вами абсолютно согласен: как мы и ожидаем в данном случае распределение Ваших данных близко к нормальному (что хорошо видно и на гистограмме, и на QQ plot). Игнорируйте Shapiro и спокойно используйте параметрические методы (например, t-test).

Shapiro test имеет ряд ограничений, одно из которых — его ненадежность при работе с относительно большими выборками. В этом случае малейшее отклонение от нормального распределения ведет к крайне малому значению p-value. По этой причине, рекомендуется прежде всего полагаться на QQ plot, подобнее об этом можете почитать здесь (там описан практически Ваш случай): https://stats.stackexchange.com/questions/284033/qq-plot-looks-normal-but-shapiro-wilk-test-says-otherwise/284035

«Результаты t-теста говорят о том, что средняя ожидаемая продолжительность жизни у жителей Северного Кавказа (74.6 лет) действительно выше, чем в среднем по России (70.93 лет), а результаты теста являются статистически значимыми (p ↓

Здравствуйте, Виталий!
Спасибо, что сообщили. Очепятка исправлена:-)

Добрый вечер! Как Вы доступно и легко объясняете!Спасибо!
Что Вы можете рассказать о тесте Колмогорова-Смирнова, тест пропорций и биноминальном тесте? в каких случаях их лучше использовать?

Вам спасибо, что читаете этот блог! Я думаю написать о некоторых из этих тестов в Августе-Сентябре этого года. Пока работаю над другими статьями (про R пакеты).

Источник

t-критерий Стьюдента для проверки гипотезы о средней и расчета доверительного интервала в Excel

Проверка статистической гипотезы позволяет сделать строгий вывод о характеристиках генеральной совокупности на основе выборочных данных. Гипотезы бывают разные. Одна из них – это гипотеза о средней (математическом ожидании). Суть ее в том, чтобы на основе только имеющейся выборки сделать корректное заключение о том, где может или не может находится генеральная средняя (точную правду мы никогда не узнаем, но можем сузить круг поиска).

Распределение Стьюдента

T value что показывает. lazy placeholder. T value что показывает фото. T value что показывает-lazy placeholder. картинка T value что показывает. картинка lazy placeholder

Тогда случайная величина

T value что показывает. lazy placeholder. T value что показывает фото. T value что показывает-lazy placeholder. картинка T value что показывает. картинка lazy placeholder

имеет стандартное нормальное распределение со всеми вытекающими отсюда последствиями. Например, с вероятностью 95% ее значение не выйдет за пределы ±1,96.

Однако такой подход будет корректным, если известна генеральная дисперсия. В реальности, как правило, она не известна. Вместо нее берут оценку – несмещенную выборочную дисперсию:

T value что показывает. lazy placeholder. T value что показывает фото. T value что показывает-lazy placeholder. картинка T value что показывает. картинка lazy placeholder

T value что показывает. lazy placeholder. T value что показывает фото. T value что показывает-lazy placeholder. картинка T value что показывает. картинка lazy placeholder

Возникает вопрос: будет ли генеральная средняя c вероятностью 95% находиться в пределах ±1,96s. Другими словами, являются ли распределения случайных величин

T value что показывает. lazy placeholder. T value что показывает фото. T value что показывает-lazy placeholder. картинка T value что показывает. картинка lazy placeholder

T value что показывает. lazy placeholder. T value что показывает фото. T value что показывает-lazy placeholder. картинка T value что показывает. картинка lazy placeholder

Впервые этот вопрос был поставлен (и решен) одним химиком, который трудился на пивной фабрике Гиннесса в г. Дублин (Ирландия). Химика звали Уильям Сили Госсет и он брал пробы пива для проведения химического анализа. В какой-то момент, видимо, Уильяма стали терзать смутные сомнения на счет распределения средних. Оно получалось немного более размазанным, чем должно быть у нормального распределения.

Собрав математическое обоснование и рассчитав значения функции обнаруженного им распределения, химик из Дублина Уильям Госсет написал заметку, которая была опубликована в мартовском выпуске 1908 года журнала «Биометрика» (главред – Карл Пирсон). Гиннесс строго-настрого запретил выдавать секреты пивоварения, и Госсет подписался псевдонимом Стьюдент.

Несмотря на то что, К. Пирсон уже изобрел распределение Хи-квадрат, все-таки всеобщее представление о нормальности еще доминировало. Никто не собирался думать, что распределение выборочных оценок может быть не нормальным. Поэтому статья У. Госсета осталась практически не замеченной и забытой. И только Рональд Фишер по достоинству оценил открытие Госсета. Фишер использовал новое распределение в своих работах и дал ему название t-распределение Стьюдента. Критерий для проверки гипотез, соответственно, стал t-критерием Стьюдента. Так произошла «революция» в статистике, которая шагнула в эру анализа выборочных данных. Это был краткий экскурс в историю.

Посмотрим, что же мог увидеть У. Госсет. Сгенерируем 20 тысяч нормальных выборок из 6-ти наблюдений со средней () 50 и среднеквадратичным отклонением (σ) 10. Затем нормируем выборочные средние, используя генеральную дисперсию:

T value что показывает. lazy placeholder. T value что показывает фото. T value что показывает-lazy placeholder. картинка T value что показывает. картинка lazy placeholder

Получившиеся 20 тысяч средних сгруппируем в интервалы длинной 0,1 и подсчитаем частоты. Изобразим на диаграмме фактическое (Norm) и теоретическое (ENorm) распределение частот выборочных средних.

T value что показывает. lazy placeholder. T value что показывает фото. T value что показывает-lazy placeholder. картинка T value что показывает. картинка lazy placeholder

Точки (наблюдаемые частоты) практически совпадают с линией (теоретическими частотами). Оно и понятно, ведь данные взяты из одной и то же генеральной совокупности, а отличия – это лишь ошибки выборки.

Проведем новый эксперимент. Нормируем средние, используя выборочную дисперсию.

T value что показывает. lazy placeholder. T value что показывает фото. T value что показывает-lazy placeholder. картинка T value что показывает. картинка lazy placeholder

Снова подсчитаем частоты и нанесем их на диаграмму в виде точек, оставив для сравнения линию стандартного нормального распределения. Обозначим эмпирическое частоты средних, скажем, через букву t.

T value что показывает. lazy placeholder. T value что показывает фото. T value что показывает-lazy placeholder. картинка T value что показывает. картинка lazy placeholder

Видно, что распределения на этот раз не очень-то и совпадают. Близки, да, но не одинаковы. Хвосты стали более «тяжелыми».

У Госсета-Стьюдента не было последней версии MS Excel, но именно этот эффект он и заметил. Почему так получается? Объяснение заключается в том, что случайная величина

T value что показывает. lazy placeholder. T value что показывает фото. T value что показывает-lazy placeholder. картинка T value что показывает. картинка lazy placeholder

зависит не только от ошибки выборки (числителя), но и от стандартной ошибки средней (знаменателя), которая также является случайной величиной.

Давайте немного разберемся, какое распределение должно быть у такой случайной величины. Вначале придется кое-что вспомнить (или узнать) из математической статистики. Есть такая теорема Фишера, которая гласит, что в выборке из нормального распределения:

1. средняя и выборочная дисперсия s 2 являются независимыми величинами;

2. соотношение выборочной и генеральной дисперсии, умноженное на количество степеней свободы, имеет распределение χ 2 (хи-квадрат) с таким же количеством степеней свободы, т.е.

T value что показывает. lazy placeholder. T value что показывает фото. T value что показывает-lazy placeholder. картинка T value что показывает. картинка lazy placeholder

где k – количество степеней свободы (на английском degrees of freedom (d.f.))

Вернемся к распределению средней. Разделим числитель и знаменатель выражения

T value что показывает. lazy placeholder. T value что показывает фото. T value что показывает-lazy placeholder. картинка T value что показывает. картинка lazy placeholder

T value что показывает. lazy placeholder. T value что показывает фото. T value что показывает-lazy placeholder. картинка T value что показывает. картинка lazy placeholder

Числитель – это стандартная нормальная случайная величина (обозначим ξ (кси)). Знаменатель выразим из теоремы Фишера.

T value что показывает. lazy placeholder. T value что показывает фото. T value что показывает-lazy placeholder. картинка T value что показывает. картинка lazy placeholder

Тогда исходное выражение примет вид

T value что показывает. lazy placeholder. T value что показывает фото. T value что показывает-lazy placeholder. картинка T value что показывает. картинка lazy placeholder

Это и есть t-критерий Стьюдента в общем виде (стьюдентово отношение). Вывести функцию его распределения можно уже непосредственно, т.к. распределения обеих случайных величин в данном выражении известны. Оставим это удовольствие математикам.

Функция t-распределения Стьюдента имеет довольно сложную для понимания формулу, поэтому не имеет смысла ее разбирать. Вероятности и квантили t-критерия приведены в специальных таблицах распределения Стьюдента и забиты в функции разных ПО вроде Excel.

Итак, вооружившись новыми знаниями, вы сможете понять официальное определение распределения Стьюдента.
Случайной величиной, подчиняющейся распределению Стьюдента с k степенями свободы, называется отношение независимых случайных величин

T value что показывает. lazy placeholder. T value что показывает фото. T value что показывает-lazy placeholder. картинка T value что показывает. картинка lazy placeholder

где ξ распределена по стандартному нормальному закону, а χ 2 k подчиняется распределению χ 2 c k степенями свободы.

Таким образом, формула критерия Стьюдента для средней арифметической

T value что показывает. lazy placeholder. T value что показывает фото. T value что показывает-lazy placeholder. картинка T value что показывает. картинка lazy placeholder

есть частный случай стьюдентова отношения

T value что показывает. lazy placeholder. T value что показывает фото. T value что показывает-lazy placeholder. картинка T value что показывает. картинка lazy placeholder

Из формулы и определения следует, что распределение т-критерия Стьюдента зависит лишь от количества степеней свободы.

T value что показывает. lazy placeholder. T value что показывает фото. T value что показывает-lazy placeholder. картинка T value что показывает. картинка lazy placeholder

При k > 30 t-критерий практически не отличается от стандартного нормального распределения.

В отличие от хи-квадрат, t-критерий может быть одно- и двусторонним. Обычно пользуются двусторонним, предполагая, что отклонение может происходить в обе стороны от средней. Но если условие задачи допускает отклонение только в одну сторону, то разумно применять односторонний критерий. От этого немного увеличивается мощность критерия.

Условия применения t-критерия Стьюдента

Несмотря на то, что открытие Стьюдента в свое время совершило переворот в статистике, t-критерий все же довольно сильно ограничен в возможностях применения, т.к. сам по себе происходит из предположения о нормальном распределении исходных данных. Если данные не являются нормальными (что обычно и бывает), то и t-критерий уже не будет иметь распределения Стьюдента. Однако в силу действия центральной предельной теоремы средняя даже у ненормальных данных быстро приобретает колоколообразную форму распределения.

Рассмотрим, для примера, данные, имеющие выраженный скос вправо, как у распределения хи-квадрат с 5-ю степенями свободы.

T value что показывает. lazy placeholder. T value что показывает фото. T value что показывает-lazy placeholder. картинка T value что показывает. картинка lazy placeholder

Теперь создадим 20 тысяч выборок и будет наблюдать, как меняется распределение средних в зависимости от их объема.

T value что показывает. lazy placeholder. T value что показывает фото. T value что показывает-lazy placeholder. картинка T value что показывает. картинка lazy placeholder

Отличие довольно заметно в малых выборках до 15-20-ти наблюдений. Но дальше оно стремительно исчезает. Таким образом, ненормальность распределения – это, конечно, нехорошо, но некритично.

Больше всего t-критерий «боится» выбросов, т.е. аномальных отклонений. Возьмем 20 тыс. нормальных выборок по 15 наблюдений и в часть из них добавим по одному случайном выбросу.

T value что показывает. lazy placeholder. T value что показывает фото. T value что показывает-lazy placeholder. картинка T value что показывает. картинка lazy placeholder

Картина получается нерадостная. Фактические частоты средних сильно отличаются от теоретических. Использование t-распределения в такой ситуации становится весьма рискованной затеей.

Итак, в не очень малых выборках (от 15-ти наблюдений) t-критерий относительно устойчив к ненормальному распределению исходных данных. А вот выбросы в данных сильно искажают распределение t-критерия, что, в свою очередь, может привести к ошибкам статистического вывода, поэтому от аномальных наблюдений следует избавиться. Часто из выборки удаляют все значения, выходящие за пределы ±2 стандартных отклонения от средней.

Пример проверки гипотезы о математическом ожидании с помощью t- критерия Стьюдента в MS Excel

В Excel есть несколько функций, связанных с t-распределением. Рассмотрим их.

СТЬЮДЕНТ.РАСП – «классическое» левостороннее t-распределение Стьюдента. На вход подается значение t-критерия, количество степеней свободы и опция (0 или 1), определяющая, что нужно рассчитать: плотность или значение функции. На выходе получаем, соответственно, плотность или вероятность того, что случайная величина окажется меньше указанного в аргументе t-критерия, т.е. левосторонний p-value.

СТЬЮДЕНТ.РАСП.2Х – двухсторонне распределение. В качестве аргумента подается абсолютное значение (по модулю) t-критерия и количество степеней свободы. На выходе получаем вероятность получить такое или еще больше значение t-критерия (по модулю), т.е. фактический уровень значимости (p-value).

СТЬЮДЕНТ.РАСП.ПХ – правостороннее t-распределение. Так, 1-СТЬЮДЕНТ.РАСП(2;5;1) = СТЬЮДЕНТ.РАСП.ПХ(2;5) = 0,05097. Если t-критерий положительный, то полученная вероятность – это p-value.

СТЬЮДЕНТ.ОБР – используется для расчета левостороннего обратного значения t-распределения. В качестве аргумента подается вероятность и количество степеней свободы. На выходе получаем соответствующее этой вероятности значение t-критерия. Отсчет вероятности идет слева. Поэтому для левого хвоста нужен сам уровень значимости α, а для правого 1 — α.

СТЬЮДЕНТ.ОБР.2Х – обратное значение для двухстороннего распределения Стьюдента, т.е. значение t-критерия (по модулю). Также на вход подается уровень значимости α. Только на этот раз отсчет ведется с двух сторон одновременно, поэтому вероятность распределяется на два хвоста. Так, СТЬЮДЕНТ.ОБР(1-0,025;5) = СТЬЮДЕНТ.ОБР.2Х(0,05;5) = 2,57058

СТЬЮДЕНТ.ТЕСТ – функция для проверки гипотезы о равенстве математических ожиданий в двух выборках. Заменяет кучу расчетов, т.к. достаточно указать лишь два диапазона с данными и еще пару параметров. На выходе получим p-value.

ДОВЕРИТ.СТЬЮДЕНТ – расчет доверительного интервала средней с учетом t-распределения.

Рассмотрим такой учебный пример. На предприятии фасуют цемент в мешки по 50кг. В силу случайности в отдельно взятом мешке допускается некоторое отклонение от ожидаемой массы, но генеральная средняя должна оставаться 50кг. В отделе контроля качества случайным образом взвесили 9 мешков и получили следующие результаты: средняя масса () составила 50,3кг, среднеквадратичное отклонение (s) – 0,5кг.

Согласуется ли полученный результат с нулевой гипотезой о том, что генеральная средняя равна 50кг? Другими словами, можно ли получить такой результат по чистой случайности, если оборудование работает исправно и выдает среднее наполнение 50 кг? Если гипотеза не будет отклонена, то полученное различие вписывается в диапазон случайных колебаний, если же гипотеза будет отклонена, то, скорее всего, в настройках аппарата, заполняющего мешки, произошел сбой. Требуется его проверка и настройка.

Краткое условие в обще принятых обозначениях выглядит так.

Есть основания предположить, что распределение заполняемости мешков подчиняются нормальному распределению (или не сильно от него отличается). Значит, для проверки гипотезы о математическом ожидании можно использовать t-критерий Стьюдента. Случайные отклонения могут происходить в любую сторону, значит нужен двусторонний t-критерий.

Вначале применим допотопные средства: ручной расчет t-критерия и сравнение его с критическим табличным значением. Расчетный t-критерий:

T value что показывает. lazy placeholder. T value что показывает фото. T value что показывает-lazy placeholder. картинка T value что показывает. картинка lazy placeholder

Теперь определим, выходит ли полученное число за критический уровень при уровне значимости α = 0,05. Воспользуемся таблицей для критерия Стьюдента (есть в любом учебнике по статистике).

T value что показывает. lazy placeholder. T value что показывает фото. T value что показывает-lazy placeholder. картинка T value что показывает. картинка lazy placeholder

По столбцам идет вероятность правой части распределения, по строкам – число степеней свободы. Нас интересует двусторонний t-критерий с уровнем значимости 0,05, что равносильно t-значению для половины уровня значимости справа: 1 — 0,05/2 = 0,975. Количество степеней свободы – это объем выборки минус 1, т.е. 9 — 1 = 8. На пересечении находим табличное значение t-критерия – 2,306. Если бы мы использовали стандартное нормальное распределение, то критической точкой было бы значение 1,96, а тут она больше, т.к. t-распределение на небольших выборках имеет более приплюснутый вид.

Сравниваем фактическое (1,8) и табличное значение (2.306). Расчетный критерий оказался меньше табличного. Следовательно, имеющиеся данные не противоречат гипотезе H0 о том, что генеральная средняя равна 50 кг (но и не доказывают ее). Это все, что мы можем узнать, используя таблицы. Можно, конечно, еще p-value попробовать найти, но он будет приближенным. А, как правило, именно p-value используется для проверки гипотез. Поэтому далее переходим в Excel.

Готовой функции для расчета t-критерия в Excel нет. Но это и не страшно, ведь формула t-критерия Стьюдента довольно проста и ее можно легко соорудить прямо в ячейке Excel.

T value что показывает. lazy placeholder. T value что показывает фото. T value что показывает-lazy placeholder. картинка T value что показывает. картинка lazy placeholder

Получили те же 1,8. Найдем вначале критическое значение. Альфа берем 0,05, критерий двусторонний. Нужна функция обратного значения t-распределения для двухсторонней гипотезы СТЬЮДЕНТ.ОБР.2Х.

T value что показывает. lazy placeholder. T value что показывает фото. T value что показывает-lazy placeholder. картинка T value что показывает. картинка lazy placeholder

Полученное значение отсекает критическую область. Наблюдаемый t-критерий в нее не попадает, поэтому гипотеза не отклоняется.

Однако это тот же способ проверки гипотезы с помощью табличного значения. Более информативно будет рассчитать p-value, т.е. вероятность получить наблюдаемое или еще большее отклонение от средней 50кг, если эта гипотеза верна. Потребуется функция распределения Стьюдента для двухсторонней гипотезы СТЬЮДЕНТ.РАСП.2Х.

T value что показывает. lazy placeholder. T value что показывает фото. T value что показывает-lazy placeholder. картинка T value что показывает. картинка lazy placeholder

P-value равен 0,1096, что больше допустимого уровня значимости 0,05 – гипотезу не отклоняем. Но теперь можно судить о степени доказательства. P-value оказался довольно близок к тому уровню, когда гипотеза отклоняется, а это наводит на разные мысли. Например, что выборка оказалась слишком мала для обнаружения значимого отклонения.

Пусть через некоторое время отдел контроля снова решил проверить, как выдерживается стандарт заполняемости мешков. На этот раз для большей надежности было отобрано не 9, а 25 мешков. Интуитивно понятно, что разброс средней уменьшится, а, значит, и шансов найти сбой в системе становится больше.

Допустим, были получены те же значения средней и стандартного отклонения по выборке, что и в первый раз (50,3 и 0,5 соответственно). Рассчитаем t-критерий.

T value что показывает. lazy placeholder. T value что показывает фото. T value что показывает-lazy placeholder. картинка T value что показывает. картинка lazy placeholder
Критическое значение для 24-х степеней свободы и α = 0,05 составляет 2,064. На картинке ниже видно, что t-критерий попадает в область отклонения гипотезы.

T value что показывает. lazy placeholder. T value что показывает фото. T value что показывает-lazy placeholder. картинка T value что показывает. картинка lazy placeholder

Можно сделать вывод о том, что с доверительной вероятностью более 95% генеральная средняя отличается от 50кг. Для большей убедительности посмотрим на p-value (последняя строка в таблице). Вероятность получить среднюю с таким или еще большим отклонением от 50, если гипотеза верна, составляет 0,0062, или 0,62%, что при однократном измерении практически невозможно. В общем, гипотезу отклоняем, как маловероятную.

Расчет доверительного интервала для математического ожидания с помощью t-распределения Стьюдента в Excel

С проверкой гипотез тесно связан еще один статистический метод – расчет доверительных интервалов. Если в полученный интервал попадает значение, соответствующее нулевой гипотезе, то это равносильно тому, что нулевая гипотеза не отклоняется. В противном случае, гипотеза отклоняется с соответствующей доверительной вероятностью. В некоторых случаях аналитики вообще не проверяют гипотез в классическом виде, а рассчитывают только доверительные интервалы. Такой подход позволяет извлечь еще больше полезной информации.

Рассчитаем доверительные интервалы для средней при 9 и 25 наблюдениях. Для этого воспользуемся функцией Excel ДОВЕРИТ.СТЬЮДЕНТ. Здесь, как ни странно, все довольно просто. В аргументах функции нужно указать только уровень значимости α, стандартное отклонение по выборке и размер выборки. На выходе получим полуширину доверительного интервала, то есть значение которое нужно отложить по обе стороны от средней. Проведя расчеты и нарисовав наглядную диаграмму, получим следующее.

T value что показывает. lazy placeholder. T value что показывает фото. T value что показывает-lazy placeholder. картинка T value что показывает. картинка lazy placeholder

Как видно, при выборке в 9 наблюдений значение 50 попадает в доверительный интервал (гипотеза не отклоняется), а при 25-ти наблюдениях не попадает (гипотеза отклоняется). При этом в эксперименте с 25-ю мешками можно утверждать, что с вероятностью 97,5% генеральная средняя превышает 50,1 кг (нижняя граница доверительного интервала равна 50,094кг). А это довольно ценная информация.

Таким образом, мы решили одну и ту же задачу тремя способами:

1. Древним подходом, сравнивая расчетное и табличное значение t-критерия
2. Более современным, рассчитав p-value, добавив степень уверенности при отклонении гипотезы.
3. Еще более информативным, рассчитав доверительный интервал и получив минимальное значение генеральной средней.

Важно помнить, что t-критерий относится к параметрическим методам, т.к. основан на нормальном распределении (у него два параметра: среднее и дисперсия). Поэтому для его успешного применения важна хотя бы приблизительная нормальность исходных данных и отсутствие выбросов.

Напоследок предлагаю видеоролик о том, как рассчитать критерий Стьюдента и проверить гипотезу о генеральной средней в Excel.

Иногда просят объяснить, как делаются такие наглядные диаграммы с распределением. Ниже можно скачать файл, где проводились расчеты для этой статьи.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *