В чем заключается группировка данных

Теория статистики: конспект лекций

В чем заключается группировка данных. cover. В чем заключается группировка данных фото. В чем заключается группировка данных-cover. картинка В чем заключается группировка данных. картинка cover

Данное учебное пособие предназначено для подготовки студентов экономических вузов к сдаче экзаменов. Издание содержит полный курс лекций по теории статистики, составленный профессиональными экономистами. Студентам предлагается ознакомиться с вопросами теории статистики. Рассматриваются методы статистического наблюдения, сводка, групировка данных, средней величины, показатели вариации, корреляционный и регрессивный анализы, анализ временных рядов, индексы, использование графического метода и многое другое. Издание предназначено для студентов, обучающихся по специальности «Статистика» и другим экономическим специальностям.

Оглавление

Приведённый ознакомительный фрагмент книги Теория статистики: конспект лекций предоставлен нашим книжным партнёром — компанией ЛитРес.

ЛЕКЦИЯ № 3. Сводка и группировка статистических данных

1. Основное содержание и задачи статистической сводки

Сведения о каждой единице анализируемой совокупности, полученные в результате первой стадии статистического исследования, характеризуют статистическое наблюдение с различных его сторон, так как они обладают многочисленными признаками и свойствами, которые изменяются во времени и пространстве. Для получения сводной характеристики всего объекта при помощи обобщающих показателей нужно систематизировать и обобщить результаты, которые были получены в ходе статистического наблюдения. Это даст нам возможность выявить особенности и черты статистической совокупности в целом и отдельных ее составляющих, обнаружить закономерности изучаемых социально–экономических явлений и процессов. Данную систематизацию называют сводкой первичного статистического материала.

Второй этап статистической работы — статистическая сводка — это обработка первичных данных в целях получения обобщенных характеристик изучаемого явления или процесса по ряду существенных для него признаков для выявления типичных черт и закономерностей, присущих явлению или процессу в целом.

Статистическая сводка — это переход от единичных данных к сведениям о группах единиц и совокупности в целом.

Проведение сводки включает три этапа:

1) предварительный контроль — это проверка данных;

2) группировка данных по заданным признакам — это определение производных показателей;

3) оформление результатов сводки в виде статистических таблиц, они являются удобной формой для восприятия полученной информации.

Смысловая согласованность статистических сведений — это предварительный контроль. В соответствии с программой статистической сводки для того, чтобы в дальнейшем предоставить полученную информацию в доступном для восприятия виде, используется статистическая группировка данных.

Полученные результаты группировки оформляются в виде группировочных таблиц, содержащих сводную характеристику исследуемой совокупности по одному или нескольким признакам, которые взаимосвязаны логикой анализа. Различают сводку простую и сложную. Сведения об отдельных единицах подытоживаются в целом по совокупности без разделения их на однородные группы. Итоги простой статистической сводки предназначаются для дальнейшей обработки материала, простая сводка также имеет самостоятельное познавательное значение.

Простая статистическая сводка — это операция по подсчету общих итоговых и групповых данных по совокупности единиц наблюдения и оформление этого материала в таблицах.

Простая статистическая сводка дает нам возможность определить число единиц изучаемой совокупности и объем изучаемых признаков, но тем самым простая сводка не дает нам представления о целостности состава изучаемой совокупности.

Если единицы совокупности разбивают на однородные группы, после этого подсчитывают итоги по каждой группе, а затем по всей совокупности в целом, такую статистическую сводку называют сложной. Сложная сводка позволяет нам изучить состав совокупности и выявить влияние одних признаков на другие, т. е раскрыть свойственные данной совокупности закономерности.

Сложная статистическая сводка — это комплекс операций. включающих распределение единиц наблюдения изучаемого социально–экономического явления или процесса на группы, составление системы показателей для характеристики типичных групп и подгрупп изучаемой совокупности явлений, подсчет числа единиц и итогов в каждой группе и подгруппах и оформление результатов этой работы в виде статистических таблиц. На основе всестороннего теоретического анализа сущности и содержания изучаемых явлений и процессов проводится статистическая сводка. Программой и планом проведения статистической сводки обеспечивается достоверность и обоснованность ее результатов.

Программа статистической сводки содержит перечень групп на которые может быть разбита или разбивается совокупность единиц статистического наблюдения, а также систему показателей, характеризующих изучаемую совокупность явлений и процессов как в целом, так и отдельных ее частей. От целей и задач исследования зависит программа статистической сводки. Разработка программы включает следующие этапы:

1) выбирается группировочный признак для образования однородных групп;

2) определяется порядок формирования и число групп;

3) разрабатывается система статистических показателей для характеристики групп и объекта в целом;

4) создаются макеты статистических таблиц для предоставления результатов сводки.

Вместе с программой статистической сводки составляют план ее проведения. План должен содержать информацию о последовательности, сроках и технике проведения сводки, ее исполнителях, о порядке и правилах оформления ее результатов в виде таблиц.

Сводка также бывает децентрализованной и централизованной.

Децентрализованная статистическая сводка — это способ обобщения материала, который осуществляется снизу доверху по иерархической лестнице управления и на каждом из этапов подвергается обработке. Обработка данных производится на местах, т. е. отчеты предприятий сводятся статистическими органами субъектов Российской Федерации. Полученные итоги поступают в Госкомстат РФ, а затем выводятся итоговые показатели в целом по социально–экономическому положению страны.

Централизованная статистическая сводка — это способ, при котором все первичные данные, полученные в результате статистического наблюдения, сосредоточиваются в одной центральной организации и подвергаются обработке от начала до конца.

По технике выполнения статистическая сводка бывает механизированная (с использованием электронно–вычислительной техники) и ручная.

2. Сущность и классификация группировок

Научно обоснованное распределение на группы дает возможность сделать правильные выводы об изучаемой совокупности и происходящих в ней процессах.

Принципы научной группировки были изложены в работах В. И. Ленина. Статистическая группировка, как указывал В. И. Ленин, не является второстепенным вопросом. Она требует всестороннего социально–экономического анализа изучаемых явлений, Решающее значение в статистической группировке имеет правильный выбор группировочных признаков в соответствии с задачами статистического исследования. В основу группировки должны быть положены самые существенные, самые важные для изучаемого вопроса признаки, которые позволят выявить социально–экономические типы явлений. Блестящим примером применения статистических группировок для выявления социально–экономических типов может служить таблица из работы В. И. Ленина «Развитие капитализма в России».

Статистическая группировка — это один из основных этапов проведения статистического исследования.

Процесс образования однородных групп на основе разделения статистической совокупности на части или объединение изучаемых статистических единиц в совокупности по определенным для них признакам называют статистической группировкой Важнейшим статистическим методом обобщения данных являются статистические группировки.

Источник

14. Группировка данных. Виды группировок.
Перегруппировка

Эта статья условно открывает вторую часть курса Математической статистики, и начнём мы с простенького материала, который вполне бы мог войти в 1-й урок, но оказался там немного не в тему, поскольку сам открывает большую тему 🙂

Рассмотрим некоторую статистическую совокупность, например, множество студентов ВУЗа. Очевидно, это множество можно исследовать как единое целое – подсчитать общее количество студентов, вычислить их средний возраст, среднюю успеваемость и др. характеристики. Благо, статистических данных – море. Но всё это общие характеристики. Во многих случаях совокупность целесообразно разделить на группы, то есть выполнить группировку.

Группировка – это разделение статистической совокупности (не важно, генеральной или выборочной) на группы по одному или бОльшему количеству признаков.

И разделить её можно по-разному. Во-первых, выделить качественно однородные группы. Например, разделить студентов ВУЗа на лиц М и Ж пола. Такая группировка называется типологической. Или, как вы любите говорить, «типа логической» 🙂 Кстати, студенты уже по факту разделены на факультеты – и это тоже пример типологической группировки, но уже по другому признаку.

Итак, типологическая группировка – это разделение неоднородной статистической совокупности на качественно однородные группы.

Само собой полученные группы исследуются по отдельности и сравниваются – как между собой, так и с общими показателями. При этом проводится структурная группировка – это разделение качественно однородной совокупности по какому-либо вариационному признаку. По росту, весу, уровню IQ, скорости движения, периоду полураспада и так далее. Признаков – тьма.

Да будет свет! – в качестве простейшего условного примера рассмотрим среднюю успеваемость студентов ВУЗа: В чем заключается группировка данных. gruppirovka dannyh clip image002. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image002. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image002(общая средняя). Но это не слишком информативный показатель.

Гораздо интереснее провести типологическую группировку, например, разделить всех студентов на «физиков» и «лириков», и подсчитать групповые средние: В чем заключается группировка данных. gruppirovka dannyh clip image004. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image004. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image004. Ну вот, теперь прекрасно видно, кому в универе жить хорошо 🙂 Или рассчитать групповые средние по факультетам: В чем заключается группировка данных. gruppirovka dannyh clip image006. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image006. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image006. И выяснить, почему это на 2-м факультете такая низкая успеваемость по сравнению со средней успеваемостью В чем заключается группировка данных. gruppirovka dannyh clip image002 0000. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image002 0000. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image002 0000по ВУЗу.

Довольно часто грань между типологической и структурной группировкой стирается. Приведу избитый, но показательный пример с банками. Все банки можно разделить на мелкие, средние и крупные (типологическая группировка). Но с другой стороны, эти категории основаны на количественном показателе, мелкие – меньше одного литра, средние – от одного до трёх, и крупные – больше трёх литров. То есть, это одновременно и структурная группировка.

Следует отметить, что при кажущейся простоте провести подобную группировку бывает не так-то просто. Трудность состоит в том, чтобы грамотно выделить различные категории (типы), и для этого, порой, исследуют целый комплекс показателей. Эксперты Центробанки гарантируют 🙂

Кроме того, существуют и другие виды группировок, в частности, аналитическая группировка и комбинационная группировка. Но о них позже, после практической разминки.

Ранее мы уже неоднократно проводили группировку данных, давайте вспомним пару примеров:

По результатам выборочного исследования рабочих цеха были установлены их квалификационные разряды: 4, 5, 6, 4, 4, 2, 3, 5, 4, 4, 5, 2, 3, 3, 4, 5, 5, 2, 3, 6, 5, 4, 6, 4, 3.

В этой задаче была проведена структурная группировка рабочих цеха по их разряду и получен дискретный вариационный ряд:
В чем заключается группировка данных. gruppirovka dannyh clip image008. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image008. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image008
где В чем заключается группировка данных. gruppirovka dannyh clip image010. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image010. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image010– разряды, а В чем заключается группировка данных. gruppirovka dannyh clip image012. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image012. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image012– количество рабочих того или иного разряда

По результатам исследования цены некоторого товара в различных торговых точках города, получены следующие данные (в некоторых денежных единицах):
В чем заключается группировка данных. gruppirovka dannyh clip image014. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image014. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image014

В этом примере мы тоже провели структурную группировку (товаров по их цене) и получили интервальный вариационный ряд:
В чем заключается группировка данных. gruppirovka dannyh clip image016. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image016. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image016
где В чем заключается группировка данных. gruppirovka dannyh clip image012 0000. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image012 0000. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image012 0000– количество товаров из того или иного ценового интервала.

И сейчас мы продолжим группировать данные. Студентам чаще всего предлагают провести структурную и аналитическую группировку; разберём их по порядку. Затем потренируемся в комбинационной группировке, ну а группировку типологическую я оставлю за кадром, полагаю, разделить совокупность на кошек и собак ни у кого не вызовет трудностей.

Суровая задача местного Политеха для студентов около- и машиностроительных специальностей:

В результате выборочного исследования 30 станков рассчитаны их относительные показатели металлоёмкости (т/кВт):
В чем заключается группировка данных. gruppirovka dannyh clip image018. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image018. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image018

а) вычислить общую среднюю;

б) выполнить структурную равноинтервальную группировку;

в) выполнить структурную равнонаполненную группировку;

г) выбрать наиболее удачную группировку и вычислить выборочные средние; результаты оформить в виде групповой таблицы;

д) по выбранной группировке построить интервальный вариационный ряд;

Но прежде немного о содержании. Согласно автору методички, относительная металлоемкость – это частное от деления веса станка на мощность его двигателя (тонн на киловатт). Разделили, например, 5 тонн на 2 кВт и получили 2,5 тонны на один кВт. Эти значения и представлены в таблице. Правильность и достоверность перечисленных фактов в который раз оставлю на совести автора, да и, в конце концов, нам требуется обработать числа, а уж что это такое – не особо важно, хоть объём талии пчёлок. …И всё-таки математика немного шизофреническая наука 🙂

Решение:

Ну, с пунктом а) справится даже неподготовленный человек. Очевидно, что для нахождения общей средней нужно просуммировать все значения и разделить полученный результат на объём выборки:
В чем заключается группировка данных. gruppirovka dannyh clip image020. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image020. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image020т/кВт (не забываем указать размерность)

Эти и другие вычисления легко выполняются в Экселе, и чуть ниже будет ролик о том, как быстро выполнить все пункты задания. Ибо на калькуляторе щёлкать 30 слагаемых муторно (хотя, вариант вполне рабочий).

б) Выполним структурную равноинтервальную группировку. Пугаться не нужно, это задание уже было – нам нужно построить обычный интервальный вариационный ряд с равными интервалами, и я кратко повторю алгоритм.

В условии ничего не сказано о количестве интервалов, и поэтому для определения их оптимального количества используем формулу Стерджеса:
В чем заключается группировка данных. gruppirovka dannyh clip image022. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image022. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image022интервалов (результат округляем влево).

Найдём минимальное В чем заключается группировка данных. gruppirovka dannyh clip image024. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image024. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image024и максимальное В чем заключается группировка данных. gruppirovka dannyh clip image026. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image026. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image026значения и вычислим размах вариации: В чем заключается группировка данных. gruppirovka dannyh clip image028. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image028. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image028т/кВт. Таким образом, длина каждого интервала составит: В чем заключается группировка данных. gruppirovka dannyh clip image030. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image030. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image030т/кВт. Теперь «нарезаем» интервалы и подсчитываем количество станков В чем заключается группировка данных. gruppirovka dannyh clip image012 0001. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image012 0001. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image012 0001в каждом из них:
В чем заключается группировка данных. gruppirovka dannyh clip image032. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image032. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image032
Контроль: В чем заключается группировка данных. gruppirovka dannyh clip image034. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image034. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image034, что и требовалось проверить.

И уже сейчас мы видим, что построенный вариационный ряд не слишком хорош – по той причине, что в трёх последних интервалах слишком мало станков, и считать по ним средние значения и другие показатели не вполне корректно.

Во избежание этого недостатка используют разные методы, и один из них состоит в том, что использовать:

в) равнонаполненную группировку. Это разбиение совокупности на группы с одинаковым (или примерно одинаковым) количеством объектов, станков в данном случае. Но интервалы здесь получатся разной длины.
Отсортируем числа по возрастанию и выделим 5 групп по В чем заключается группировка данных. gruppirovka dannyh clip image036. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image036. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image036станков в каждой:
В чем заключается группировка данных. gruppirovka dannyh clip image038. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image038. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image038

Формально всё выглядит тип-топ (и можно оставить так), но некоторые значения логичнее перенести в соседние группы. Так, значение 0,5789 (верхняя строка) явно ближе к 1-й группе, а значение 2,6667 – к предпоследней группе; туда их и перенесём:
В чем заключается группировка данных. gruppirovka dannyh clip image040. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image040. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image040

г) Очевидно, что равнонаполненная группировка более удачна, с ней и работаем. По каждой группе подсчитаем суммы, количество станков и выборочные средние. Результаты представим в виде групповой таблицы:
В чем заключается группировка данных. gruppirovka dannyh clip image042. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image042. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image042

И на всякий пожарный примеры расчёта групповых средних:
В чем заключается группировка данных. gruppirovka dannyh clip image044. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image044. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image044т/кВт;
В чем заключается группировка данных. gruppirovka dannyh clip image046. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image046. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image046т/кВт;
и так далее. Вычисления удобно проводить опять же в Экселе (см. ролик ниже).

Да, кстати, не забываем предварительно проконтролировать объём выборки:
В чем заключается группировка данных. gruppirovka dannyh clip image048. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image048. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image048, что и требовалось проверить.

д) Построим интервальный вариационный ряд по равнонаполненной группировке. Границы интервалов можно брать как средние арифметические «стыковых» значений, например: В чем заключается группировка данных. gruppirovka dannyh clip image050. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image050. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image050(граница между 1-м и 2-м интервалом). Но вполне допустимо (и даже лучше) разметить интервалы «на глазок», выбирая удобные «круглые» значения:
В чем заключается группировка данных. gruppirovka dannyh clip image052. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image052. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image052

Полученный интервальный ряд имеет разную длину интервалов, но для него точно так же можно построить гистограмму, полигон и эмпирическую функцию распределения, а также рассчитать различные характеристики. Правда, с модой проблема будет и для её нахождения таки лучше использовать равноинтервальную группировку (пункт б).

Теперь смотрим ролик по быстрому и эффективному выполнению задания:

В чем заключается группировка данных. video. В чем заключается группировка данных фото. В чем заключается группировка данных-video. картинка В чем заключается группировка данных. картинка videoКак выполнить структурную группировку и вычислить средние? (Ютуб)

Выражаясь научно, мы выполнили статистическую сводку. Статистическая сводка – это комплекс действий по обработке статистических данных с целью анализа спастической совокупности. Причём, в пункте а) была простая статическая сводка (подсчёт общих показателей), которая переросла в сводку сложную, включающую в себя группировку данных, расчёт групповых характеристик и сведение результатов в групповую таблицу.

е) Я не случайно выделил этот пункт. Довольно часто в заданиях подобного типа требуется сделать краткие выводы – в них нужно отразить основные результаты выполненных действий и особенности исследуемой совокупности.

И мы сделаем простенькие выводы. Сказать здесь можно следующее. В результате исследования рассчитана средняя металлоёмкость В чем заключается группировка данных. gruppirovka dannyh clip image054. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image054. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image054т/кВт по выборке и средние значения по группам равнонаполненной (наиболее удачной) группировки. Большинство станков (18 шт. в первых трёх группах) имеют показатель металлоёмкости меньший, чем средняя металлоёмкость по выборке. Пять станков (группа 5) обладают значительно бОльшей металлоёмкостью, чем остальные, и причины этого требуют отдельного анализа (возможно, станки морально устарели).

Несколько строчек вполне достаточно, даже многовато получилось.

Следующее задание для самостоятельного решения:

По результатам выборочного исследования 50 предприятий получены данные об их квартальной прибыли (числа в экселевском файле), млн. руб. Требуется: 1) вычислить среднюю прибыль, 2) провести равнонаполненную группировку и вычислить групповые средние, 3) построить соответствующий вариационный ряд, 4) сделать выводы.

Вообще, здесь удобно разбить выборку на 5 интервалов (и такой вариант вполне себе неплох), но от греха подальше лучше использовать формулу Стерджеса, что я и сделал в образце решения, который, как обычно, находится внизу страницы. Ваш вариант решения может немного отличаться от моей версии.

Теперь вернёмся к пункту «бэ» Примера 55, где была выполнена не слишком удачная равноинтервальная группировка, скопирую табличку сверху:
В чем заключается группировка данных. gruppirovka dannyh clip image032 0000. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image032 0000. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image032 0000

Как вы помните, от «куцых» интервалов мы избавились, выполнив равнонаполненную группировку. Но есть и другой метод «лечения», который называется перегруппировкой.

Перегруппировка – это вторичная группировка, которая состоит в преобразовании уже построенного вариационного ряда. И одним из инструментов перегруппировки является укрупнение интервалов. В данном случае можно просто объединить три последних интервала, и, коль скоро, нам известны первичные (исходные) данные, то заодно подкорректируем границы всех интервалов до удобных значений:
В чем заключается группировка данных. gruppirovka dannyh clip image056. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image056. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image056
Не так, конечно, получилось подробно, как в равнонаполненной группировке, но тоже вполне наглядно. При желании, к слову, первый интервал легко измельчить, получив нечто близкое или даже совпадающее с этой группировкой. Благо, исходные числа в нашем распоряжении.

Но что делать, если первичные данные не известны?

Перегруппируйте следующие данные о численности работающих на 55 предприятиях, образовав следующие группы: до 400, 400-1000, 1000-3000, 3000-6000, свыше 6000:
В чем заключается группировка данных. gruppirovka dannyh clip image058. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image058. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image058

В этой задаче мы не знаем исходные варианты (конкретную численность рабочих по предприятиям), но решение есть! Для удобства оформлю его по пунктам, ВНИМАТЕЛЬНО вникайте в суть:

1) Выделим новый промежуток «до 400» (красный цвет на рисунке ниже). В него, понятно, войдёт интервал «до 100» (4 предприятия) и часть интервала «100-500», а именно часть 100-400, выделенная коричневым цветом:
В чем заключается группировка данных. gruppirovka dannyh clip image060. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image060. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image060

Теперь длину коричневой части В чем заключается группировка данных. gruppirovka dannyh clip image062. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image062. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image062нужно сопоставить с длиной интервала «100-500» (с В чем заключается группировка данных. gruppirovka dannyh clip image064. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image064. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image064):
В чем заключается группировка данных. gruppirovka dannyh clip image066. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image066. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image066– таким образом, три четверти предприятий интервала «100-500» следует отнести в пользу промежутка «до 400»: В чем заключается группировка данных. gruppirovka dannyh clip image068. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image068. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image068.
Итого в промежутке «до 400» оказывается В чем заключается группировка данных. gruppirovka dannyh clip image070. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image070. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image070предприятий.

…вроде всё просто, а объяснить было довольно сложно 🙂 Соответственно, на кусок «400-500» останется В чем заключается группировка данных. gruppirovka dannyh clip image072. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image072. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image072предприятия. Выражаясь кратко, этот принцип можно называть выделением пропорциональных долей. Доли выделяются пропорционально длинам частей интервала.

2) Выделим новый промежуток «400-1000». В него войдёт оставшийся старый «кусок» «400-500» с двумя предприятиями и старый интервал «500-1000» с 5 предприятиями:
В чем заключается группировка данных. gruppirovka dannyh clip image074. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image074. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image074

Итого на промежутке «400-1000» оказалось В чем заключается группировка данных. gruppirovka dannyh clip image076. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image076. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image076предприятий.

3) Выделим новый промежуток «1000-3000». В него полностью войдёт старый интервал «1000-2000» с 14 предприятиями и одна треть интервала с «2000-5000» с В чем заключается группировка данных. gruppirovka dannyh clip image078. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image078. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image078предприятиями:

В чем заключается группировка данных. gruppirovka dannyh clip image080. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image080. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image080

Нужную долю (одну треть) мы нашли как отношение длины коричневого интервала В чем заключается группировка данных. gruppirovka dannyh clip image082. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image082. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image082к длине интервала «2000-5000» В чем заключается группировка данных. gruppirovka dannyh clip image084. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image084. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image084:
В чем заключается группировка данных. gruppirovka dannyh clip image086. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image086. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image086
Таким образом, в промежуток «1000-3000» вошло В чем заключается группировка данных. gruppirovka dannyh clip image088. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image088. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image088предприятий.

4) В новый промежуток «3000-6000» входят две трети старого интервала «2000-5000» (см. рис. выше), что составляет В чем заключается группировка данных. gruppirovka dannyh clip image090. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image090. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image090предприятий (или В чем заключается группировка данных. gruppirovka dannyh clip image092. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image092. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image092), и, кроме того, одна пятая старого интервала «5000-10000», к которой относится В чем заключается группировка данных. gruppirovka dannyh clip image094. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image094. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image094предприятие:
В чем заключается группировка данных. gruppirovka dannyh clip image096. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image096. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image096

Одна пятая найдена как отношение длины коричневого интервала «5000-6000» к длине интервала «5000-10000»:
В чем заключается группировка данных. gruppirovka dannyh clip image098. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image098. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image098

Таким образом, в промежуток «3000-6000» вошло В чем заключается группировка данных. gruppirovka dannyh clip image100. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image100. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image100предприятий.

5) И, наконец, в последний новый промежуток «свыше 6000» входят четыре пятых старого интервала «5000-10000» (см. рис. выше) или В чем заключается группировка данных. gruppirovka dannyh clip image102. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image102. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image102предприятия, а также 3 предприятия старого интервала «10000-20000» и 1 предприятие интервала «свыше 20000».

Итого: В чем заключается группировка данных. gruppirovka dannyh clip image104. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image104. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image104предприятий.

Перегруппировка завершена, новый вариационный ряд построен:
В чем заключается группировка данных. gruppirovka dannyh clip image106. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image106. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image106

И обязательно проконтролируем объем выборки, мало ли что-то потерялось или мы где-то обсчитались:
В чем заключается группировка данных. gruppirovka dannyh clip image108. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image108. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image108, в чём и требовалось убедиться.

Следует отметить, что метод выделения долей, строго говоря, не точен, и если в нашем распоряжении есть первичные данные, то, конечно же, ориентируемся на них – в результате с высокой вероятностью получатся немного другие частоты по группам. Но для выборочной совокупности годится и долевая перегруппировка, поскольку от выборки к выборке мы всё равно будем получать разные значения и строить похожие, но всё же разные вариационные ряды.

Перегруппировка часто применятся для того чтобы сопоставить «родственные» совокупности с разными интервалами:

По результатам выборочного исследования двух банок банков получены данные о заработной плате их служащих:
В чем заключается группировка данных. gruppirovka dannyh clip image110. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image110. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image110
Сравнить уровень заработной платы банков, выделив интервалы: до 500, 500-1000,
1000-2000, 2000-3000, 3000-4000, 4000-5000, свыше 5000, и рассчитав относительные частоты по каждому банку. Результаты представить в виде общей таблицы, сделать выводы.

Для удобства я заготовил для вас Эксель-шаблон, не ленимся! Если трудно, то можно использовать рисунки с разметкой интервалов (по образцу предыдущего примера), в образце я ограничился аналитическим решением.

И я жду вас на следующем уроке, который посвящён дисперсиям, коль скоро, были средние, то где-то рядом нас поджидают и дисперсии.

Пример 56. Решение:

1) вычислим среднюю квартальную прибыль предприятий:
В чем заключается группировка данных. gruppirovka dannyh clip image112. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image112. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image112млн. руб.

2) Проведём равнонаполненную группировку с равным или примерно равным количеством предприятий в каждой группе.

Оптимальное количество интервалов определим по формуле Стерджеса:
В чем заключается группировка данных. gruppirovka dannyh clip image114. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image114. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image114и, округляя влево, получаем 6 интервалов. Таким образом, в каждом интервале будет содержаться В чем заключается группировка данных. gruppirovka dannyh clip image116. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image116. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image116– от 7 до 9 предприятий.

Упорядочим совокупность по возрастанию и выделим в ней следующие группы; в групповой таблице вычислим суммы и групповые средние:
В чем заключается группировка данных. gruppirovka dannyh clip image118. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image118. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image118
Промежуточный контроль: В чем заключается группировка данных. gruppirovka dannyh clip image120. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image120. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image120, ч.т.п.

3) Построим интервальный вариационный ряд:
В чем заключается группировка данных. gruppirovka dannyh clip image122. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image122. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image122

4) Средняя прибыль предприятий за квартал составила В чем заключается группировка данных. gruppirovka dannyh clip image124. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image124. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image124млн. руб. Прибыль варьируется в пределах от 82 до 124 млн. руб. и равнонаполненная группировка показала, что распределение предприятий по данному показателю близкО к равномерному. То есть, практически нет предприятий со слишком большой или слишком малой прибылью.

З.Ы. Возможно, вы заметили что-то ещё! 😉

Пример 58. Решение: 1) выполним перегруппировку по 1-му банку:

– В новый промежуток «до 500» войдут интервалы «до 100» и «100-500»:
В чем заключается группировка данных. gruppirovka dannyh clip image126. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image126. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image126чел.

– Новые промежутки «500-1000, 1000-2000» совпадают со старыми интервалами.

– Новые промежутки «2000-3000, 3000-4000, 4000-5000» полностью входят в старый интервал «2000-5000». Делим частоту этого интервала на 3:
В чем заключается группировка данных. gruppirovka dannyh clip image128. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image128. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image128– в каждый новый промежуток.
В промежутки «2000-3000, 3000-4000» относим по 11 человек, а в промежуток «4000-5000» – 10 человек (предполагая то, что людей с бОльшей заработной платой – меньше)

– Новый промежуток «5000 и более» совпадает со старым интервалом.

2) Выполним перегруппировку второго вариационного ряда:

– Старый интервал «до 1000» разобьём на два новых равных промежутка, при этом в промежуток «до 500» отнесём 5 человек, а в промежуток «500-1000» – 6 человек (предполагая, что людей с более низкой з/п – чуть меньше)

– В новый промежуток «1000-2000» входит интервал «1000-1500» и половина интервала «1500-2500», в людях это составит:
В чем заключается группировка данных. gruppirovka dannyh clip image130. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image130. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image130чел.

– В новый промежуток «2000-3000» входит половина интервала «1500-2500» и В чем заключается группировка данных. gruppirovka dannyh clip image132. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image132. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image132интервала «2500-4200», в людях это составляет:
В чем заключается группировка данных. gruppirovka dannyh clip image134. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image134. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image134чел.

– В новый промежуток «3000-4000» входит В чем заключается группировка данных. gruppirovka dannyh clip image136. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image136. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image136интервала «2500-4200», в людях это составляет:
В чем заключается группировка данных. gruppirovka dannyh clip image138. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image138. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image138чел.

– В новый промежуток «4000-5000» входит В чем заключается группировка данных. gruppirovka dannyh clip image140. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image140. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image140интервала «2500-4200» и В чем заключается группировка данных. gruppirovka dannyh clip image142. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image142. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image142интервала «4200-6000», в людях это составит:

В чем заключается группировка данных. gruppirovka dannyh clip image144. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image144. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image144чел.

– И в новый промежуток «свыше 5000» входит В чем заключается группировка данных. gruppirovka dannyh clip image146. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image146. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image146интервала «4200-6000» и интервал «свыше 6000», в людях это составит:
В чем заключается группировка данных. gruppirovka dannyh clip image148. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image148. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image148чел.

Результаты сведём в единую таблицу, при этом рассчитаем относительные частоты по каждому банку:
В чем заключается группировка данных. gruppirovka dannyh clip image150. В чем заключается группировка данных фото. В чем заключается группировка данных-gruppirovka dannyh clip image150. картинка В чем заключается группировка данных. картинка gruppirovka dannyh clip image150

Краткие выводы: Для обоих банков характерна зарплата от 1000 до 2000 у.е., однако в 1-м банке чуть более высокий уровень заработной платы – значительное количество сотрудников получает более 2000 у.е. Но, скорее всего, основная их масса имеет з/п в диапазоне 2000-3000, здесь требуется дополнительное исследование первичных данных, поскольку формальное разбиение интервала «2000-5000» на три равных интервала не очень удачно.

З.Ы. Возможно, вы заметили что-то ещё! 😉

Автор: Емелин Александр

(Переход на главную страницу)

В чем заключается группировка данных. mark. В чем заключается группировка данных фото. В чем заключается группировка данных-mark. картинка В чем заключается группировка данных. картинка mark Zaochnik.com – профессиональная помощь студентам

cкидкa 15% на первый зaкaз, прoмoкoд: 5530-hihi5

В чем заключается группировка данных. mark. В чем заключается группировка данных фото. В чем заключается группировка данных-mark. картинка В чем заключается группировка данных. картинка mark Tutoronline.ru – онлайн репетиторы по математике и другим предметам

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *