Как искать квартили в статистике
Формула квартиля
Формула квартиля (оглавление)
Определение формулы квартиля
Quartile, как звучит его название, представляет собой статистический термин, который делит данные на четверти или четыре определенных интервала. Он в основном делит точки данных на набор данных в 4 кварталах на числовой строке. Мы должны помнить одну вещь: точки данных могут быть случайными, и мы должны сначала разместить эти числа в строке чисел в порядке возрастания, а затем разделить их на квартили. Это в основном расширенная версия медианы. Медиана делит данные на две равные части, а квартили делят их на четыре части. Как только мы разделим данные, четыре квартиля будут:
Формула для квартиля:
Допустим, у нас есть набор данных с N точками данных:
Формула для квартилей имеет вид:
Lower Quartile (Q1) = (N+1) * 1 / 4 Middle Quartile (Q2) = (N+1) * 2 / 4 Upper Quartile (Q3 )= (N+1) * 3 / 4 Interquartile Range = Q3 – Q1
Lower Quartile (Q1) = (N+1) * 1 / 4 Middle Quartile (Q2) = (N+1) * 2 / 4 Upper Quartile (Q3 )= (N+1) * 3 / 4 Interquartile Range = Q3 – Q1
Lower Quartile (Q1) = (N+1) * 1 / 4 Middle Quartile (Q2) = (N+1) * 2 / 4 Upper Quartile (Q3 )= (N+1) * 3 / 4 Interquartile Range = Q3 – Q1
Lower Quartile (Q1) = (N+1) * 1 / 4 Middle Quartile (Q2) = (N+1) * 2 / 4 Upper Quartile (Q3 )= (N+1) * 3 / 4 Interquartile Range = Q3 – Q1
В основном это означает, что в наборе данных с N точками данных:
Межквартильный диапазон в основном расстояния между нижним квартилем и верхним квартилем.
Примеры формулы Quartile (с шаблоном Excel)
Давайте рассмотрим пример, чтобы лучше понять расчет Quartile.
Допустим, у нас есть наборы данных A, которые содержат 19 точек данных. Рассчитать квартиль для набора данных А.
Набор данных:
Прежде всего, вы должны расположить этот порядок возрастания, т.е. от низшего к высшему:
Количество точек данных рассчитывается как:
Квартиль рассчитывается по приведенной ниже формуле
Нижний квартиль (Q1) = (N + 1) * 1/4
Итак, нижний квартиль (Q1) = 29
Средний квартал (Q2) = (N + 1) * 2/4
Средний квартал (Q2) = 43
Верхний квартиль (Q3) = (N + 1) * 3/4
Итак, верхний квартиль (Q3) = 67
Межквартильный диапазон рассчитывается по формуле, приведенной ниже
Итак, межквартирный диапазон = 43
Если вы видите набор данных, медиана этого набора: (n + 1) / 2 = 20/2 = 10- е значение, т.е. 43, это то же самое, что и Q2.
Давайте посмотрим еще один пример того, как компании и предприятия могут использовать этот инструмент для принятия обоснованного решения о том, какой продукт производить.
Предположим, что вы являетесь производителем кроссовок и известным брендом среди спортсменов, которые проводят марафон, занимаются спортом и т.д. удовлетворить спрос.
Вы собрали образец из 15 спортсменов из разных видов спорта. Рассчитать квартиль.
Набор данных приведен ниже:
Расположите размер обуви в порядке возрастания.
Квартиль рассчитывается по приведенной ниже формуле
Нижний квартиль (Q1) = (N + 1) * 1/4
Итак, нижний квартиль (Q1) = 10
Средний квартал (Q2) = (N + 1) * 2/4
Средний квартал (Q2) = 10
Верхний квартиль (Q3) = (N + 1) * 3/4
Итак, верхний квартиль (Q3) = 11
Межквартильный диапазон рассчитывается по формуле, приведенной ниже
Итак, межквартирный диапазон = 10
объяснение
Актуальность и использование формулы Quartile
Как обсуждалось выше, формула квартиля помогает нам очень быстро разделить данные на четыре части и, в конечном итоге, облегчает понимание данных в этих частях. Например, учитель класса хочет наградить 25% лучших учеников лакомствами и подарками и хочет дать еще один шанс 25% учеников улучшить свой результат. Он может использовать квартили и может делить данные. Таким образом, если квартили говорят 51, 65, 72, а ученик говорит 78, он получит вкусности. Если у другого ученика будет 48 баллов, у него будет еще один шанс улучшить его, быстро и легко интерпретировать.
Рекомендуемые статьи
Расчет медианы и квартилей для дискретного ряда запросом
Что такое медиана и квартили?
Медиана — числовое значение признака, которое делит упорядоченную по возрастанию совокупность на две равных части.
Квартили — числовые значения признака, которые делят упорядоченную по возрастанию совокупность на четыре равных части.
Раз квартили делят совокупность на четыре части, то квартилей бывает три варианта: первый (нижний), второй(средний), третий (верхний). Второй квартиль это и есть медиана.
Пример
Имеем числовой ряд [1,3,5,7,9,11,13]:
Все становится немного сложнее, когда элементов, например, нечетное количество — выбрать конкретный элемент уже не получится.
Зачем все это нужно?
Медиана
Такой показатель как «среднее» знаком всем и ни у кого не возникает вопросов о его необходимости. Проблема со средним в том, что оно хорошо описывает данные, если они распределены нормально. Иначе, как правило, разумнее использовать медиану.
Самый простой пример: средняя зарплата в России. Показатель в некотором смысле отражает «среднюю температуру по больнице», так как на него оказывают сильное влияние выбросы — условно, слишком большие зарплаты олигархов. В то же время, медиана показывает такой размер зарплаты, который делит население пополам — половина получает меньше этой суммы, половина больше. В итоге, медиана почти в 1.5 раза меньше средних показателей зарплаты.
Более близкий пример к 1С: средний чек. Если хочется оценить динамику этого показателя, то лучше использовать медиану. Причина: на среднее сильно влияют выбросы — очень маленькие покупки или наоборот очень большие.
Квартили
Например, есть задача оценки адекватности закупочной цены на товар на текущий момент.
Один из вариантов — посмотреть по каким ценам продавался этот товар ранее и исходя из наценки рассчитать целевую закупочную цену. Но смотреть на среднее, как было сказано выше, плохая затея. Можно, например, попытаться определить такую цену, что 75% товара продавалось по ней или выше — это и будет 1-й квартиль. Все это, правда, будет работать, если у нас достаточно наблюдений — например, товар продавался хотя бы раз 30, чтобы было на основе чего все рассчитывать.
Безусловно, все это не может быть единственным критерием для определения разумной закупочной цены и нужно использоваться что-то еще.
Формулы
В общем случае можно посчитать порядковый номер медианы и квартилей:
В общем случае, все эти порядковые номера могут быть нецелыми (например, если количество элементов нечетно).
Если номер квартиля – нецелое число, то значением квартиля будет сумма, состоящая из значения элемента, для которого порядковый номер равен целому значению номера квартиля, и указанной части (нецелая часть номера квартиля) разности между значением этого элемента и значением следующего элемента.
Так же в общем случае, не всегда есть порядковый номер: один и тот же признак может встречаться в выборке несколько раз и пронумеровать их можно будет только условно. Например, в статье //infostart.ru/public/539316/ рассматривается как раз такой вариант решения.
В общем случае, можно использовать понятие накопленной частоты для каждого уникального элемента ряда. Подробнее про теорию можно почитать, например, тут: https://studfile.net/preview/5316597/page:3/#9. Там же есть хорошие примеры расчета.
Запрос
Постарался прокомментрировать все действия в самом запросе
Квантили
Рассмотрен расчет медианы и квартилей, но запрос легко доработать для расчета любых других квантилей, в частности децилей и перцентилей.
Квартиль
Опубликовано 16.06.2021 · Обновлено 19.12.2021
Что такое Квартиль?
Квартиль – это статистический термин, который описывает разделение наблюдений на четыре определенных интервала на основе значений данных и их сравнения со всем набором наблюдений.
Общие сведения о квартилях
Медиана является надежным средством оценки местоположения, но ничего не говорит о том, как данные по обе стороны от ее значения распространяются или рассредоточены. Вот где вступает в игру квартиль. Квартиль измеряет разброс значений выше и ниже среднего путем деления распределения на четыре группы.
Ключевые моменты
Как работают квартили
Точно так же, как медиана делит данные пополам, так что 50% измерения лежит ниже медианы, а 50% – выше нее, квартиль разбивает данные на кварталы, так что 25% измерений меньше нижнего квартиля, 50 % меньше среднего, а 75% меньше верхнего квартиля.
Квартиль делит данные на три точки – нижний квартиль, медиана и верхний квартиль – для формирования четырех групп набора данных. Нижний квартиль или первый квартиль обозначается как Q1 и является средним числом, которое находится между наименьшим значением набора данных и медианой. Второй квартиль, Q2, также является медианным. Верхний или третий квартиль, обозначаемый Q3, является центральной точкой, которая находится между медианой и наивысшим номером распределения.
Теперь мы можем выделить четыре группы, сформированные из квартилей. Первая группа значений содержит наименьшее число до Q1; во вторую группу входит Q1 до медианы; третий набор – это медиана Q3; четвертая категория включает Q3 в самую высокую точку данных всего набора.
Каждый квартиль содержит 25% от общего числа наблюдений. Как правило, данные располагаются от наименьшего к наибольшему:
Пример квартиля
Предположим, что баллы по математике в классе из 19 учеников в порядке возрастания распределены следующим образом:
59, 60, 65, 65, 68, 69, 70, 72, 75, 75, 76, 77, 81, 82, 84, 87, 90, 95, 98
Сначала отметьте медианное значение Q2, которое в данном случае является 10- м значением: 75.
Q1 – это центральная точка между наименьшей оценкой и медианой. В этом случае Q1 попадает между первым и пятым баллом: 68. [Обратите внимание, что медиана также может быть включена при вычислении Q1 или Q3 для нечетного набора значений. Если бы мы включили медианное значение по обе стороны от средней точки, то Q1 будет средним значением между первым и 10- м баллами, что является средним значением пятого и шестого баллов – (пятый + шестой) / 2 = ( 68 + 69) / 2 = 68,5].
Q3 – это среднее значение между Q2 и наивысшим баллом: 84. [Или, если вы включаете медиану, Q3 = (82 + 84) / 2 = 83].
Теперь, когда у нас есть квартили, давайте интерпретируем их числа. Оценка 68 (Q1) представляет первый квартиль и 25- й процентиль. 68 – это медиана нижней половины оценки, установленной в имеющихся данных, то есть медиана оценок от 59 до 75.
Q1 говорит нам, что 25% оценок ниже 68 и 75% оценок класса выше. Q2 (медиана) – это 50- й процентиль и показывает, что 50% оценок меньше 75, а 50% оценок выше 75. Наконец, Q3, 75- й процентиль, показывает, что 25% оценок являются больше и 75% меньше 84.
Особые соображения
Если точка данных для Q1 дальше от медианы, чем Q3 от медианы, то мы можем сказать, что существует больший разброс среди меньших значений набора данных, чем среди больших значений. Та же самая логика применяется, если Q3 дальше от Q2, чем Q1 от медианы.
В качестве альтернативы, если имеется четное количество точек данных, медиана будет средним из двух средних чисел. В нашем примере выше, если бы у нас было 20 студентов вместо 19, медиана их оценок будет средним арифметическим 10- го и 11- го числа.
Квартили используются для расчета межквартильного размаха, который является мерой изменчивости вокруг медианы. Межквартильный размах просто рассчитывается как разница между первым и третьим квартилями: Q3 – Q1. Фактически, это диапазон средней половины данных, который показывает, насколько разбросаны данные.
Для больших наборов данных в Microsoft Excel есть функция КВАРТИЛЬ для вычисления квартилей.
Статистика — это грамматика науки о данных. Часть 3
Mar 30, 2019 · 4 min read
Повторение статистики для начала путешествия по науке о данных
Меры расположения
Процентили
Процентили делят упорядоченные данные на сто равных частей. В рассортированных данных процентиль — это точка, показывающая процентное отношение значений в наборе данных, находящихся ниже данной точки.
50-й процентиль — это медиана.
Например, на графике ниже показано развитие ребенка от рождения до 2 лет. Получается, что 98% развития ребенка за первый год жизни составляет в весе меньше 11,5 кг.
Другим примером является ра с пределение доходов в стране. 99-й процентиль — это уровень дохода, при котором 99% населения зарабатывают меньше этого значения и 1% — больше. Так в Великобритании, как показано на графике ниже, 99-й процентиль составляет 75.000 фунтов стерлингов.
Квартили
Квартили — это процентили, которые делят набор данных на четверти. Первый квартиль, Q1, равен 25-ому процентилю, третий квартиль, Q3, равен 75-ому процентилю. Медиана может быть обозначена либо вторым квартилем, Q2, либо 50-ым процентилем.
Интерквартильный размах (IQR)
IQR — число, которое показывает разброс средней половины (т.е. средние 50%) набора данных и помогает определить выбросы. IQR — это разница между Q3 и Q1.
Выбросы — это, проще говоря, те значения данных, которые находятся за пределами следующих интервалов: Q1–1.5 x IQR и Q3 + 1.5 x IQR.
Диаграмма «ящик с усами»
Диаграмма «ящик с усами» показывает:
Ящик с усами имеет горизонтальную и вертикальную оси и прямоугольный ящик.
«Усы» (выделенные фиолетовым цветом) начинаются с концов ящика и заканчиваются на самом минимальном или максимальном значениях данных. Также бывают ящики с усами, у которых есть отмеченные значения выбросов (выделены красным цветом). В таких случаях, усы не достигают минимального и максимального значений.
Ящики с усами на графике нормального распределения Ящики с усами на нормальных распределениях имеют некоторые особенности: Несмотря на то, что первый и третий квартили (Q1 и Q3) имеют такие названия, они, на самом деле, не составляют 25% от числа данных! Они показывают 34,135%. Также второй квартиль (Q2) составляет не 50%, а 68,27%.
Моменты случайной величины
Моменты случайно величины описывают различные аспекты характера и формы нашего распределения.
#1 — первый момент случайной величины — среднее значение данных, которое показывает место распределения.
#2 — второй момент случайной величины — дисперсия, которая показывает разброс распределения. Большие значения имеют больший размах, чем маленькие.
#3 — третий момент случайной величины — коэффициент асимметрии — мера того, насколько неравномерным является распределение. Коэффициент асимметрии положителен, если распределение наклонено влево и левый хвост короче правого. То есть среднее значение находится правее. И наоборот:
#4 — четвертый момент случайной величины — коэффициент эксцесса, который описывает то, насколько толстый хвост и насколько острый пик распределения. Этот коэффициент показывает, насколько вероятно найти точки экстремума в данных. Чем выше значение, тем вероятнее выбросы. Это похоже на разброс (дисперсию), но между ними есть отличия.
Как видно на графике, чем выше значение пики, тем выше коэффициент эксцесса, т.е. у верхней кривой коэффициент эксцесса выше, чем у нижней.
КВАРТИЛЬ: какие формулы расчета использует Excel
Квартиль — одна из статистик, используемая при описании выборок (подробнее о различных статистиках см. Определение среднего значения, вариации и формы распределения. Описательные статистики). В то время как медиана разделяет упорядоченный массив пополам, квартили разбивают набор данных на четыре части. Первый квартиль – это число, разделяющее выборку на две части: 25% элементов меньше, а 75% — больше значения первого квартиля. Третий квартиль — это число, разделяющее выборку также на две части: 75% элементов меньше, а 25% — больше третьего квартиля.
Рис. 1. 5-числовые сводки: М – медиана, Н1 и Н2 – сгибы (они же квартили)
Скачать заметку в формате Word или pdf, примеры в формате Excel (файл содержит код VBA).
Для расчета квартилей в Excel2007 и более ранних версиях использовалась функция КВАРТИЛЬ. Начиная с версии Excel2010 применяются две функции: КВАРТИЛЬ.ВКЛ и КВАРТИЛЬ.ИСКЛ (функция КВАРТИЛЬ оставлена для совмещения с более ранними версиями Excel; эта функция возвращает те же значения, что и КВАРТИЛЬ.ВКЛ). Эти две функции возвращают различные значения, но я нигде не нашел, какой алгоритм они используют при расчетах. Замечу, что для корректной работы функций данные можно не упорядочивать.
Изучение литературы показало, что в отличие от большинства других статистик, единодушия в методике расчета квартилей нет)) Я нашел упоминание о девяти различных подходах…
Начнем с метода Джона Тьюки, описанного им в, уже ставшем классическом, труде Анализ результатов наблюдений. Разведочный анализ, изданном в 1977 г. Он начинает с введения трех сводок, характеризующих выборку: минимальное, максимальное значения и медиана. Далее он продолжает: «Если мы хотим добавить еще два числа, чтобы образовать 5-числовую сводку, то естественно определять их подсчетом до половины расстояния от каждого из концов к медиане. Процесс нахождения медианы, а затем и этих новых значений можно представить себе, как складывание листа бумаги. Поэтому эти новые значения естественно назвать сгибами» (англ. – hinge; рис. 1). Мы их называем квартилями.
Такие рисунки выглядят очень аккуратно, если число элементов выборки N = 4k + 1, например, 9, 13, 17… Но как быть, если в выборке 12 или 19 элементов? Наглядную картину представил Jon Peltier в серии заметок в своем блоге. Упорядочим элементы случайной выборки и разместим их над линейкой (рис. 2; случайная выборка, элементы которой упорядочены называется вариационным рядом). Серые числа под линейкой – индекс ряда (Джон зачем-то в качестве выборки – над линейкой – взял ряд целых чисел; наверное, чтобы запутать нас). Красное число над рядом – значение сводки; если оно дробное, значит полученное значение является интерполяцией между соседними значениями. Мы определяем медиану, как среднее значение набора данных, а первую квартиль – как медиану нижней половины данных.
Рис. 2. Инклюзивные квартили
Когда Джон Тьюки впервые предложил такой подход, он решил, что медиана (если число элементов в выборке нечетное) должна быть включена как в нижнюю (левую на рисунке), так и в верхнюю половинку данных при определении медиан этих половинок, то есть сгибов. Поэтому такой подход и называется инклюзивным (с включением).
Эксклюзивный подход. Некоторым статистикам не нравится, что медиана учитывается дважды. Они решили, что сгибы должны быть определены как медианы верхней и нижней половин набора данных, из которых срединное значение исключено (рис. 3). Такой взгляд отстаивали Moore и McCabe, или кратко M&M. Если набор данных содержит четное количество значений, инклюзивные и эксклюзивные квартили равны, так как нет элемента выборки (соответствующего центральной медиане), который можно было бы включить или исключить из рассмотрения. Для нечетного числа элементов, инклюзивные сгибы всегда ближе к медиане.
Рис. 3. Эксклюзивные квартили
Третий подход – компромисс между Тьюки и М&M – называется Эмпирическая функции распределения или Интегральная функция распределения (английская аббревиатура CDF). В случае нечетного числа значений в наборе данных, следует включить или исключить медиану, ориентируясь на то, чтобы оставшиеся половинки содержали нечетное число элементов. Например, если в выборке 9 элементов, медиану следует включить, а при 11 элементах – исключить. В обоих случаях половинки будут содержать по 5 элементов. Преимущество этого компромисса заключается в том, что в качестве значения квартиля всегда получается один из элементов набора данных (а не среднее значение двух соседних элементов). CDF является методом по умолчанию в статистическом пакете SAS.
Все возможные случаи N. Мы не всегда можем изобразить данные в W-образной форме, как на рис. 1, поэтому удобнее пользоваться линейкой. В общем случае возможны четыре варианта по числу элементов в выборке: N = 4k, N = 4k + 1, N = 4k + 2, N = 4k + 3… и три подхода к расчету квартилей: Тьюки, M&M, CDF (рис. 4–7).
Рис. 4. Число элементов в выборке N = 4k; все три метода дают одинаковые значения квартилей
Рис. 5. Число элементов в выборке N = 4k + 1; M&M дает значения, отстоящие дальше от медианы
Рис. 6. Число элементов в выборке N = 4k + 2; все три метода дают одинаковые значения квартилей
Рис. 7. Число элементов в выборке N = 4k + 3
Методы интерполяции. Помимо трех описанных выше методов, применяют и целый ряд индексных алгоритмов. Мы рассмотрим три из них. Первый индекс во всех методах равен 0, а последний – N–1, N, N + 1. Например, для N=8 индексированные ряды представлены на рис. 8.
Рис. 8. Индексные ряды на основе N–1, N и N + 1 для N = 8
Положение перцентиля р – доля длины индексной линии, или р(N–1), рN, р(N+1), соответственно. р = 0,25 соответствует первому квартилю, а р = 0,75 – третьему. Ниже наглядно представлен расчет квартилей при различном числе элементов в выборке и трех методах интерполяции на основе N–1, N и N + 1 (рис. 9, 11–13). Обратите внимание, что рассчитанные числа (по формулам справа от линеек) являются не значениями квартилей, а значениями индексов квартилей. Над линейками показано значение квартилей для ряда значений <1, 2, 3, 4, 5, 6, 7, 8>.
Рис. 9. Число элементов в выборке N = 4k
Если, например, наша выборка <2, 3, 5, 8, 11, 12, 14, 17>, то расчет квартилей на основе N–1-метода даст индексы 1,75, 3,5 и 5,25, и значения квартилей 4,5, 9,5 и 12,5 (рис. 10).
Рис. 10. От индексов к значениям квартилей для N–1-метода и N = 4k
Рис. 11. Число элементов в выборке N = 4k + 1
Рис. 12. Число элементов в выборке N = 4k + 2
Рис. 13. Число элементов в выборке N = 4k + 3
Какой алгоритм считать стандартным для вычисления квартилей?
В 1996 году Роб Дж. Хиндман и Янан Фан опубликовали статью в American Statistician под названием Квантили выборок в статистических пакетах. В ней они рассматривали различные алгоритмы расчета квантилей (квартили – это частный случай квантилей). Их целью было указать методологию, которая могла бы стать стандартом для поставщиков статистического программного обеспечения, чтобы расчет квартилей не зависел от типа пакета. В статье они описали девять методов для расчета квантилей. Таблица показывает некоторые статистические пакеты и используемые в них алгоритмы (рис. 14; таблица, этот раздел заметки и код VBA ниже базируются на тексте с сайта Bacon Bits). Обратите внимание, что R и Maple применяют весь спектр алгоритмов.
Рис. 14. Алгоритмы, используемые в статистических пакетах
Кстати, Хиндман и Фан в завершении своей статьи рекомендовали метод 8 в качестве стандарта для статистических пакетов. По их мнению, этот метод оценки квантиля не зависит от распределения, что делает его наиболее приемлемым для расчета.
Расчет квартилей в Excel
Функция Excel КВАРТИЛЬ.ИСКЛ использует следующую формулу для расчета квартилей:
где Qp – p-й квантиль: p = 0 – для минимального значения, 0,25 – для первого квартиля, 0,5 – для медианы, 0,75 – для третьего квартиля, 1 – для максимального значения;
x – индекс квантиля (может быть дробным); x = (n+1)p, где n – число элементов в выборке; обратите внимание на (n+1), поэтому метод и называется N+1-интерполяция;
i – индекс элемента в упорядоченной выборке; самое большое целое всё еще меньшее, чем x;
Формула для КВАРТИЛЬ.ВКЛ отличается только методом расчета х: x = (n-1)p+1; обратите внимание на (n–1), поэтому метод называется N–1-интерполяция. Подробнее с работой формул можно ознакомиться в приложенном Excel-файле на листе Формулы.
Расчет квартилей в R и SAS
Функция quantile в R использует все девять алгоритмов расчета квантилей, в соответствии с нумерацией, предложенной Hyndman and Fan в работе 1996 г. (рис. 15; если вы не знакомы с R, рекомендую начать с Алексей Шипунов. Наглядная статистика. Используем R!). Квантиль при i-м методе расчета:
где i – номер метода, 1 ≤ i ≤ 9, (j–m)/n ≤ p