Агрегировать данные что это
Агрегирование
Финансовый эксперт с высшим экономическим образованием по специальности «Экономист-менеджер». Имею опыт работы в Сбербанке России. Более 7 лет консультирую читателей по финансовым вопросам.
Описание агрегирования простыми словами
Агрегирование в различных сферах
В первом случае под агрегированием понимается реализация определённой стратегии, которая направлена на количественное увеличение клиентской базы. Суть такой стратегии заключается в сосредоточивании внимания на потребностях населения, которые позиционируются в качестве универсальных. При этом последующие выводы делаются на основе того, что потребительская база на рынке в большинстве своём практически идентична, а, соответственно, и потребности у таких клиентов могут быть одинаковыми. Данная тенденция берётся за основу при последующем осуществлении торговой деятельности.
Касательно экономической сферы, то здесь агрегирование интерпретируется в двух значениях. В одном из них так называется улучшение экономических показателей, которое осуществляется при помощи поэтапного объединения отдельных элементов в одну единую группу. При осуществлении данного процесса определяются обобщённые синтетические измерители, объединённые в одно целое. Такие измерители называются агрегированными показателями.
Довольно характерным можно назвать пример, в котором показатель объёма производства на территории отдельно взятой страны является суммарным величиной объёма производства всех предприятий промышленного значения. Сюда же можно отнести сведение динамики ценовых показателей отдельно взятых товаров в общий показатель их индексации.
Процесс агрегирования определяется суммированием и группированием. В определённом понимании агрегирование является прямой противоположностью сегментации рынка. С точки зрения такого процесса рынок позиционируется в качестве однородной среды, где могут быть реализованы маркетинговые приёмы в единичной интерпретации.
В свою очередь полной противоположностью агрегирования является дезагрегирование. Такой процесс представляет из себя явление, обратное первоначально реализованному объединению элементов, существующих в полной независимости друг от друга.
Отчасти агрегирование может рассматриваться как поэтапный переход от микроэкономического взгляда на изучаемые явления экономического значения к макроэкономическому. При таком раскладе агрегирование будет позиционироваться в качестве жизненно необходимого элемента, что обусловлено фактом, по причине которого никакая из реализуемых моделей не имеет возможности вместить существующее разнообразие экономических ресурсов, связей и продуктов. Если брать во внимание данное утверждение, то даже самые крупные модели являются продуктов агрегирования в данный промежуток времени или станут таковыми по истечении определённого временного периода.
Управленческий процесс также неизбежно включает в себя элементы агрегирования. Так, при осуществлении перехода имеющиеся показатели подвергаются данному процессу с последующим уменьшением общего количества. Более того, наряду с потерей показателей, происходит снижение информативной ценности, что является проблемой глобального масштаба. Вследствие этого, проводимые расчёты осуществляются на основе статистических закономерностей, а полученные результаты довольно часто не являются истиной.
Для того, чтобы свести к минимуму возможные погрешности, рекомендуется предварительно сопоставлять выгоду от уменьшения расчётов с ущербом, который может быть нанесён вследствие потери определённой части информации.
Агрегирование данных
«. Агрегирование данных (data aggregation): процесс сбора, обработки и представления информации в окончательном виде. Агрегирование данных в основном выполняется для формирования отчетов, выработки политики, управления здравоохранением, научных исследований, статистического анализа и изучения здоровья населения. «
Источник:
«ИНФОРМАТИЗАЦИЯ ЗДОРОВЬЯ. ТРЕБОВАНИЯ К АРХИТЕКТУРЕ ЭЛЕКТРОННОГО УЧЕТА ЗДОРОВЬЯ. ГОСТ Р ИСО/ТС 18308-2008»
(утв. Приказом Ростехрегулирования от 11.03.2008 N 44-ст)
Смотреть что такое «Агрегирование данных» в других словарях:
агрегирование данных — Процесс сбора, обработки и представления информации в окончательном виде. Агрегирование данных в основном выполняется для формирования отчетов, выработки политики, управления здравоохранением, научных исследований, статистического анализа и… … Справочник технического переводчика
агрегирование данных — (data aggregation): Процесс сбора, обработки и представления информации в окончательном виде. Агрегирование данных в основном выполняется для формирования отчетов, выработки политики, управления здравоохранением, научных исследований,… … Словарь-справочник терминов нормативно-технической документации
агрегирование — 3.2 агрегирование (aggregation): Процесс или результат объединения конструкций языка моделирования и других компонентов модели в единое целое. Примечание Конструкции языка моделирования и другие компоненты модели могут быть агрегированы в более… … Словарь-справочник терминов нормативно-технической документации
агрегирование — Объединение, суммирование экономических показателей по какому либо признаку для получения обобщенных совокупных показателей. При агрегировании необходим учет структуры объединяемых элементов, в ряде случаев требуется анализ возможности и… … Справочник технического переводчика
Агрегирование — [aggregation, aggregation problem] объединение, укрупнение показателей по какому либо признаку для получения обобщенных, совокупных показателей — агрегатов. С математической точки зрения А. рассматривается как преобразование модели в модель … Экономико-математический словарь
агрегирование информации — Преобразование детализированной информации в пакеты (агрегаты) данных, что позволяет анализировать экономику в терминах небольшого числа соответствующих агрегированных переменных, которые включают капитал, труд, товары (промежуточные и конечные) … Справочник технического переводчика
агрегирование каналов — Метод повышения пропускной способности за счет объединения нескольких параллельных каналов в один высокоскоростной поток данных. [Л.М. Невдяев. Телекоммуникационные технологии. Англо русский толковый словарь справочник. Под редакцией Ю.М.… … Справочник технического переводчика
АГРЕГИРОВАНИЕ — соединение отдельных единиц или данных в единый показатель. Например, все цены индивидуальных товаров и услуг образуют один общий уровень цен или все единицы продукции агрегируются в реальный чистый национальный продукт … Большой бухгалтерский словарь
АГРЕГИРОВАНИЕ ИНФОРМАЦИИ — преобразование детализированной информации в пакеты (агрегаты) данных, что позволяет анализировать экономику в терминах небольшого числа соответствующих агрегированных переменных, которые включают капитал, труд, товары (промежуточные и конечные) … Большой бухгалтерский словарь
АГРЕГИРОВАНИЕ — соединение отдельных единиц или данных в единый показатель. Например, все цены индивидуальных товаров и услуг образуют один общий уровень цен или все единицы продукции агрегируются в реальный чистый национальный продукт … Большой экономический словарь
Понимание агрегированных, неопознанных и анонимных данных
«Мы можем делиться агрегированными данными с нашими партнерами».
«Мы можем делиться данными, которые агрегированы или не идентифицированы».
«Наш продукт собирает анонимные данные для аналитических целей».
Многие организации утверждают, что они защищают конфиденциальность посредством использования совокупных, неопознанных или анонимных данных. Однако понимают ли их пользователи, что означают эти термины? Что такое агрегированные данные? Есть ли разница между неопознанными и анонимными данными? Для исследователей, какие наборы данных имеют большую ценность: совокупные или анонимные?
Пользователи часто соглашаются на обмен личными данными с де-идентификацией, не понимая деталей.
Если вы когда-нибудь задумывались о том, что происходит, не удивляйтесь. Вот ваше руководство по де-идентификации данных, агрегированию и различным уровням анонимности.
Сводные данные: объединить и суммировать
Рассмотрим следующее: маркетинговая компания проводит опрос, чтобы выяснить, предпочитают ли люди бренд своей компании или своих конкурентов. Когда они представляют данные руководству, они представлены в обобщенном виде: указывается, какой бренд является наиболее популярным. Они могут включать дополнительную информацию о группах, с которыми они общались, например, о предпочтениях при голосовании по возрасту или местоположению. С помощью совокупной информации мы можем получить подробную информацию о том, какие бренды популярны по возрасту или в определенных регионах, но точные сведения о том, как проголосовали отдельные лица, никогда не раскрываются..
Может ли агрегация защитить конфиденциальность?
Поскольку при агрегировании данных информация отображается только в группах, многие считают ее защитой для защиты личной информации. В конце концов, вы не можете поставить под угрозу конфиденциальность, если данные показывают результаты только для групп людей, верно?
К сожалению, это не так просто; при правильном анализе совокупная информация может значительно раскрыть личные данные. Что если вы спросите совокупные данные блога: сколько посетителей вы получаете из Ирландии, кто просматривает блог на смартфоне? Что если вы спросите количество посетителей из Ирландии, которые используют смартфон, за один день? Или посетители из Ирландии, которые используют смартфон и нажимают на рекламу Amazon для мужской одежды в один день? Применяя несколько конкретных фильтров, можно выделить отдельного человека, намеренного или нет. Агрегация может защитить конфиденциальность, но нет гарантии, что она всегда.
Для организаций, которые используют агрегирование данных, Эд Фелтон с FTC предупреждает: агрегированные данные могут быть полезны, но это не гарантирует конфиденциальность.
«Простой аргумент, что его совокупные данные, следовательно, безопасны для выпуска, сам по себе недостаточен».
Де-идентификация: удаление личных данных
Магазин розничной торговли, который использует де-идентификацию, может отслеживать отдельные покупки, даты и места расположения магазинов, но удалять имена и адреса. В то время как «Сьюзен Смит из 75 Кларк-Драйв в Грейт-Фолс, штат Монтана, покупает технические книги», база данных магазина записывает ее как «пользователя местоположения в Монтане, который покупает технические книги». Де-идентификация убирает имя и идентификаторы Сьюзен, чтобы ее покупка могла быть получена кем угодно.
Де-идентификация является особенно популярной защитой конфиденциальности в клиниках и организациях, которые обрабатывают медицинскую информацию. Закон о мобильности и подотчетности медицинского страхования (HIPAA) рассматривает де-идентификацию в соответствии с разделом 164.514. Согласно HIPAA, информация может быть идентифицирована, когда
«Нет разумных оснований, чтобы информация могла использоваться для идентификации личности».
HIPAA разрешает некоторые льготы для де-идентифицированных данных, таких как раскрытие для исследований или для государственных служащих.
От де-идентифицированного до повторного идентифицирования: это может занять немного.
Чрезвычайно популярный случай выявления недостатка де-идентификации произошел в 2006 году с Netflix. По словам Роберта Лемоса и SecurityFocus, в конкурсе на улучшение алгоритма компании Netflix выпустила набор из 2 миллионов подписчиков. Компания де-идентифицировала набор данных, удалив имена пользователей. Однако, к их удивлению, исследователи из Остина смогли идентифицировать пользователей. Они делали это, используя имеющиеся данные и заполняя пробелы из других источников: объединяя пользовательские рейтинги с общедоступной базой данных о фильмах. Само собой разумеется, согласно Epic.org, Netflix отменил соревнование.
Де-идентификация также имеет недостатки, потому что нет универсального соглашения о том, какую информацию можно идентифицировать. Будут ли данные де-идентифицированы, если IP-адреса останутся? А как насчет дат рождения? Существуют стандарты, включая Safe Harbor HIPAA, но достаточно ли их? Согласно Privacy Analytics, входящей в группу компаний IQVIA, Safe Harbor «фактически не гарантирует, что риск повторной идентификации будет низким, за исключением очень ограниченных обстоятельств». Это плохая новость для организаций здравоохранения, которые полагаются на это, поскольку согласно HIPAA раздел § 164.514.2.ii, допуски для неопознанных данных являются приемлемыми только в том случае, если нет доказательств того, что данные могут быть повторно идентифицированы. Последние исследования за последние десять лет, в том числе Риски для конфиденциальности пациентов: повторная идентификация пациентов в данных больницы штата Мэн и Вермонт теперь означает, что нужны новые стандарты.
Как насчет закодированных данных? лексемизацию?
Закодированные данные и токенизация являются надежными способами защиты конфиденциальных данных. Для закодированных данных вся конфиденциальная информация удаляется и заменяется кодовыми словами, числами или уникальными идентификаторами. Коды отображаются в другую базу данных или документ, который работает как ключ. Информация повторно идентифицируется путем сопоставления кода с соответствующими конфиденциальными данными.
В токенизации мы автоматизируем процесс, заменяя конфиденциальные данные ссылочной переменной. Токен сопоставляется с более безопасной базой данных, которая содержит конфиденциальную информацию. При обработке информации система анализирует токены по записям в защищенной базе данных. Если он находит соответствующее соответствие токена, обработка продолжается с использованием конфиденциальных данных.
Закодированные данные и токены защищают информационную безопасность. Они эффективны, потому что они скрывают только конфиденциальные данные. Если аналитик желает обработать данные без ссылки на личные данные, он может. Аналогично, наборы данных, которые используют идентификаторы кода или токены, более безопасны против кражи. Если данные скомпрометированы, конфиденциальные данные остаются скрытыми. Например, злоумышленник, который крадет данные о продажах по кредитной карте, не может видеть номера карт, если используются токены.
Имейте в виду, однако, что хотя токены, закодированные данные и уникальные идентификаторы обеспечивают лучшую безопасность, они не делают данные анонимными. Данные, которые используют токены или идентификаторы кода, все еще подчиняются правилам конфиденциальности. Законы о неприкосновенности частной жизни не связаны исключительно с нарушением доступа к данным. Законодательство о конфиденциальности работает, чтобы минимизировать потенциальное злоупотребление персональными данными. До тех пор, пока данные с разрешения могут быть повторно идентифицированы, должны быть заключены соглашения о конфиденциальности.
Применяется меньше правил: анонимные данные часто освобождаются от законодательства о конфиденциальности, включая Общее положение о защите данных E.U. В соответствии с GDPR, информация, «которая не относится к идентифицированному или идентифицируемому физическому лицу или к персональным данным, анонимным таким образом, что субъект данных не идентифицируется или больше не идентифицируется», не подпадает под требования конфиденциальности.
Как вы делаете данные анонимными? Большинство методов относятся к одной из трех категорий: криптография, обобщение (также известное как перекодирование) и рандомизация..
Криптографические методы шифровать информацию в хранилище, делая данные анонимными, пока не расшифрованы для использования. Это защищает данные, но означает, что повторная идентификация может произойти, когда данные расшифрованы для обработки.
Методы обобщения заимствовать из агрегирования и де-идентификации данных, чтобы намеренно удалять идентификаторы и сокращать точные данные. Например, при обобщении рост или вес человека становится диапазоном, а не точным числом.
Случайность искажает результаты, добавляя данные и перемещая элементы так, чтобы результаты повторной идентификации были полны ошибок. В Руководстве по управлению данными в Финском архиве данных социальных наук содержатся подробные пояснения по методам анонимизации качественных и количественных данных..
Почему нам может понадобиться отказаться от идеи анонимных данных в целом
К сожалению, возможность для личных данных быть анонимными больше не может быть вариантом. Изобретательность, которую можно использовать для повторной идентификации людей, поразительна. Оливия Солон (Olivia Solon), пишущая для The Guardian, приводит примеры использования выстрелов папарацци и безымянных журналов такси для создания знаменитых плохих самосвалов. Кори Доктороу пишет для BoingBoing.net, что журналист Svea Eckert и ученый по данным Andreas Dewes определили режим лечения немецкого парламентария на основе данных, собранных плагинами браузера. В июле 2019 года журналистка New York Times Джина Колата опубликовала доказательства того, что ученые могут повторно идентифицировать «анонимные» данные переписи населения США. Между достижениями в области науки о данных и растущим объемом данных, чтобы заполнить пробелы, концепция анонимных данных может стать бессмысленной.
Так что, если ни один из этих методов полностью не защищает конфиденциальность, что мы делаем?
Во-первых, следует признать, что хотя совокупные, неопознанные и анонимизированные наборы данных не защищают конфиденциальность полностью, они все же предлагают некоторый уровень защиты. Если ваши данные агрегированы, де-идентифицированы или анонимны, вероятность того, что они будут прочитаны ежедневными процессорами, меньше. К счастью, получение личной информации из этих тщательно обработанных данных требует инструментов и навыков, которые доступны не каждому человеку..
Во-вторых, имейте в виду, если вы видите эти фразы в политике конфиденциальности или условиях использования, что ваша личная информация по-прежнему доступна. Служба, которая собирает анонимные данные, все еще может собирать личную информацию. Компании, которые делятся совокупной или не идентифицированной информацией, все еще делятся личными данными: что вы думаете по этому поводу?
Если вы управляете компанией, которая использует агрегацию, де-идентификацию или анонимность, признайте, что они не могут быть вашими единственными гарантиями. У вас все еще должны быть другие меры физической, технической и административной защиты. Нарушение данных неопознанных данных может все еще стоить вам, особенно если есть доказательства, что личные данные могут быть собраны. Используйте эти методы в качестве инструмента, но не в конце программы конфиденциальности и безопасности.
Смотрите также: Тенденции нарушения данных
Изучение агрегирования и детализации данных
Вы когда-нибудь задумывались над тем, как лучше всего исследовать тенденции в данных, а затем искать детали, лежащие в основе этих тенденций? Если да, то вы готовы изучить концепции агрегирования и детализации.
Цели
По завершению этого модуля вы сможете:
Раздел 1. Исследование агрегирования
Агрегирование – это способ объединения данных, например, суммирование всех поисковых запросов Google по конкретному лагерю или по усредненному доходу всех наемных работников в городе. Агрегации могут показать общие тенденции в ваших данных. Количественные поля можно агрегировать. В Tableau Desktop количественные поля агрегируют по умолчанию, но их можно дезагрегировать вручную, чтобы отобразить отдельные точки данных для каждого значения данных в каждой строке источника данных.
Некоторые предопределенные агрегации описаны в таблице ниже.
Агрегирование
Описание
Возвращает арифметическую сумму чисел.
Average (Среднее значение)
Возвращает среднее арифметическое чисел.
Возвращает среднее значение в наборе данных, в котором значения размещены в порядке нарастания величины.
Возвращает минимальное число.
Возвращает максимальное число.
Возвращает количество строк.
Нажмите «Пуск», чтобы увидеть выполняемые шаги.
Шаг 1. Просмотрите визуализацию с агрегированной количественной переменной.
Итак, нас интересует тенденция ожидаемой продолжительности жизни в хронологическом порядке с 1900 по 2017 год.
Начнем с количественной переменной Продолжительность Жизни в визуализации. Что вы заметили? При агрегировании суммы по умолчанию суммируются все значения в поле ожидаемой Продолжительности Жизни, это составляет 23 681 год.
Шаг 2. Просмотрите визуализацию с добавленной шкалой времени.
Нас интересует тенденция ожидаемой продолжительности жизни в хронологическом порядке с 1900 по 2017 год. Ось временной шкалы теперь добавляется с использованием непрерывной даты Года.
Что вы заметили? При агрегировании суммы по умолчанию добавляются все значения в поле ожидаемой продолжительности жизни за каждый год. Например, общая ожидаемая продолжительность жизни в 1918 году – это самая низкая точка данных на графике (из-за пандемии испанского гриппа в этом году). Однако общая ожидаемая продолжительность жизни на 1918 год все еще очень высока – 117,9 года.
Шаг 3. Посмотрим на исходные данные
Мы хотим понять, какие значения суммируются. Посмотрим только на 1918 год.
Когда мы рассмотрим данные на уровне строк за этот год, то увидим значения в трех строках: одна строка для мужчин, одна строка для женщин и одна строка для обоих полов. Если мы просуммируем значения в этих трех строках, то получим 117,9. (39,1 + 42,2 + 36,6 = 117,9)
Шаг 4. Просмотрим на влияние среднего агрегирования
Что произойдет, если ожидаемую Продолжительность Жизни агрегировать как среднее (среднее значение), а не как сумму? Средняя продолжительность жизни на 1918 год составляет 39,3 года.
Чтобы проверить это, сложите три значения для 1918 года, а затем разделите общую сумму на количество значений (3). (39,1 + 42,2 + 36,6) / 3 = 39,3.
Шаг 5. Просмотрим на влияние медианного агрегирования
Что произойдет, если среднюю продолжительность жизни агрегировать как медианное значение? Агрегирование медианы возвращает среднее значение в наборе данных. Средняя продолжительность жизни за 1918 год сейчас составляет 39,1, это – среднее из трех значений за год.
Как вы думаете, что произойдет с агрегированными значениями за 1918 год, если мы их агрегируем по Минимуму? Максимуму? Перейдите к следующему слайду, чтобы проверить свои ответы.
Шаг 6. Просмотрим на влияние агрегирования по минимуму и максимуму.
Агрегирование по минимуму возвращает минимальное значение в выбранных данных, а агрегирование по максимуму возвращает максимальное значение. Для значений ожидаемой продолжительности жизни за 1918 год, 36,6 – это минимальное значение, а 42,2 – максимальное. Итак, минимальный результат – 36,6, максимальный – 42,2.
Шаг 7. Просмотрим на влияние агрегирования счетчика.
Теперь давайте посмотрим, что произойдет, если Продолжительность Жизни агрегировать как подсчет. Счетчик возвращает количество строк в выбранных данных. У нас есть 3 строки данных об ожидаемой продолжительности жизни за 1918 год, поэтому совокупное количество за 1918 год – 3.
Поскольку в нашем наборе данных за каждый год есть 3 строки данных, подсчет в наборе данных будет выдавать только «3», а на линейной диаграмме отображается прямая линия (3).
Шаг 8. Пересмотрим на данные
Мы изучили тенденции ожидаемой продолжительности жизни в хронологическом порядке с 1900 по 2017 год, используя различные агрегаторы. Из использованных нами агрегаторов Среднее значение наиболее четко предоставило нужную нам информацию.
Теперь давайте снова подумаем о данных. На каждый год в наборе данных есть 3 строки данных об ожидаемой продолжительности жизни: одна для мужчин, одна для женщин и одна для обоих полов.
Как вы думаете, что произойдет, если к визуализации добавить качественную переменную Пол, а ожидаемую Продолжительность Жизни агрегировать в виде суммы? Перейдите к следующему слайду, чтобы проверить свой ответ.
Шаг 9. Просмотрим на влияние дезагрегирования данных.
Сумма ожидаемой Продолжительности Жизни возвращается в виде суммы. Три значения (мужчины, женщины, оба пола) кодируются цветом.
Что вы заметили по итогам 1918 года? Поскольку каждая из 3 строк в наборе данных для 1918 года – это собственная точка данных, суммировать нечего, и значения представлены так, как они появляются в данных на уровне строк. Когда отображается отдельная точка данных для каждого значения данных в каждой строке источника данных, данные дезагрегированы.
Полученные результаты
Используя набор данных, который содержит информацию об ожидаемой продолжительности жизни, мы исследовали эффекты использования различных агрегаций, а также эффект дезагрегирования данных.
Готовы проверить свои знания? У вас есть таблица с 3 строками данных о размере читательской аудитории газет (за неделю).
Каким образом можно объединить значения в поле «Газеты, прочитанные за неделю» (2, 3 и 7) в виде суммы, среднего, медианы, минимума, максимума и количества? Подумайте об этом, а затем переверните карточки ниже, чтобы проверить свои ответы.
Переверните каждую карту ниже, чтобы увидеть значение для этой агрегации.
Сумма
Сумма (или итоговая сумма) агрегирования 2, 3 и 7 равно 12. (2 + 3 + 7 = 12)
Среднее
Среднее (или среднее значение) агрегирования 2, 3 и 7 равно 4. (2 + 3 + 7) / 3 = 4
Медиана
Агрегирование по медиане возвращает среднее значение в выбранных данных, поэтому агрегирование по медиане для 2, 3 и 7 равно 3.
Минимум
Агрегирование по минимуму возвращает минимальное значение в выбранных данных, поэтому агрегирование по минимуму для 2, 3 и 7 равно 2.
Максимум
Агрегирование по максимуму возвращает максимальное значение в выбранных данных, поэтому агрегирование по максимуму для 2, 3 и 7 равно 7.
Подсчет
Агрегирование по подсчету возвращает количество строк в выбранных данных. Поскольку 2, 3 и 7 находятся в отдельной строке, подсчет равен 3.
Проверка знаний
Какое агрегирование дает значение «10» для приведенной ниже таблицы?
Резюме
Вы узнали, как агрегирование влияет на данные, а также как влияет дезагрегирование. Вы готовы развить эти концепции, узнав о детализации.
Раздел 2. Исследование детализации
Детализация относится к тому, насколько подробны данные.
На предыдущем уроке вы рассмотрели визуализацию, в которой все значения в Продолжительность Жизни в наборе данных агрегированы в виде суммы. Эта информация была не очень подробной. Другими словами, у нее низкая степень детализации.
С непрерывной датой Год на визуализации вы видите общую ожидаемую продолжительность жизни за год. Она более подробная. Другими словами, у нее более высокая степень детализации, чем у данных в первой визуализации.
Гистограмма с одной количественной переменной, ожидаемой Продолжительностью Жизни, суммированной, с итоговым значением во всплывающей подсказке и линейной диаграммой со значениями общей продолжительности жизни, показанными на временной шкале.
Данные были дезагрегированы с качественной переменной «Пол» в визуализации, вы видите отдельную точку данных для каждого значения данных в каждой строке.
Эти дезагрегированные данные – самые подробные. Другими словами, у них самая высокая степень детализации из всех визуализаций.
Линейная диаграмма со всплывающей подсказкой для каждого дезагрегированного значения ожидаемой продолжительности жизни в 1918 году и скриншот значений в сетке данных, выделенных в соответствии с цветами на линейной диаграмме
Продолжаем изучать детализацию. Мы будем использовать набор данных, содержащий информацию о бизнес-франшизе, и изучим данные, используя разные уровни детализации.
Нажмите «Пуск», чтобы увидеть выполняемые шаги.
Шаг 1. О диаграммах рассеяния
Диаграмма рассеяния (Точечная диаграмма) – это диаграмма, которая позволяет пользователям наносить числовые данные (количественные переменные) как на горизонтальную, так и на вертикальную оси, чтобы увидеть корреляции или отношения между значениями. В этом примере мы будем использовать диаграмму рассеяния, чтобы изучить взаимосвязь между продажами компании и ее прибылью.
Шаг 2. Просмотрите диаграмму рассеяния с двумя количественными переменными.
Начнем с количественных переменных «Прибыль» и «Продажи» на диаграмме рассеяния.
Что вы заметили? На этом этапе одно число (Продажи) сопоставляется с другим (Прибыль). Кроме того, два числа сравниваются только с одной точкой данных или меткой.
Эти данные не очень-то детализированы и подробны. Другими словами, у них нет высокой степени детализации. Если мы хотим получить данные о прибыли и продажах, они должны быть более подробными.
Шаг 3. Просмотрите диаграмму рассеяния с добавленной качественной переменной.
Когда к диаграмме рассеяния добавляется качественная переменная, степень детализации данных увеличивается.
Поскольку качественная переменная Категория кодируется цветом, данные теперь разделены на три метки, по одной для каждой проданной категории продуктов. Она более детализирована, чем диаграмма разброса за одну отметку, но мы можем захотеть увидеть более подробные данные.
Например, посмотрите на прибыль по категориям на диаграмме разброса. Мы видим, что прибыль от мебели отстает от прибыли по двум другим категориям. Это дает нам ту информацию, которая нам нужна, чтобы копнуть глубже. Что вызывает это несоответствие? Следующий разумный шаг – добавить детализации, исследуя, сохраняется ли эта тенденция на географическом рынке.
Шаг 4. Просмотрите диаграмму рассеяния с добавленной второй качественной переменной.
Включив в визуализацию качественную переменную «Регион», мы можем выяснить, приносит ли мебель меньшую прибыль на всех географических рынках. Количество дискретных регионов из источника данных умножается на количество категорий для создания отметок на диаграмме рассеяния. То есть 13 регионов умножаются на 3 категории, чтобы получить 39 отметок на диаграмме разброса.
Данные теперь достаточно детализированы, чтобы мы смогли увидеть потенциальную причину низкой прибыли от мебели; в регионе Юго-Восточной Азии прибыль от мебели заметно ниже, чем в других регионах. Мы можем продолжать повышать уровень детализации данных, чтобы еще глубже изучить отрицательную прибыль от мебели в этом регионе.
Шаг 5. Просмотрите диаграмму рассеяния с отфильтрованными данными.
Мы заметили, что в регионе Юго-Восточной Азии прибыль от мебели заметно ниже, чем в других регионах. Мы хотим увидеть, связана ли эта убыточность с одной или двумя транзакциями, или несколько транзакций убыточные.
Мы знаем, что набор данных содержит одну строку для каждой транзакции. Если данные дезагрегированы, мы увидим одну точку данных (или отметку) для каждой транзакции в наборе данных. Но прежде чем дезагрегировать данные до этого уровня, мы хотим отфильтровать данные, чтобы сохранить только транзакции по мебели в регионе Юго-Восточной Азии.
Примечание. Фильтры не меняют степень детализации данных, поскольку уровень детализации не меняется. Фильтры просто исключают транзакции, в изучении которых мы не заинтересованы. Когда мы просмотрим дезагрегированные данные на следующем шаге, то увидим только те строки, которые имеют отношение к нашему анализу.
Шаг 6. Просмотрите дезагрегированные данные.
После фильтрации данных для отображения только мебели из Юго-Восточной Азии мы теперь готовы просматривать данные с максимальной детализацией.
При дезагрегировании данных отображается отдельная отметка для каждого значения данных в каждой строке выбранных данных. Мы видим по одной отметке на каждую сделку по продаже мебели в Юго-Восточной Азии. Многие из этих сделок убыточны.
Подобное исследование уровней детализации привело к важному открытию: многие сделки по продаже мебели в Юго-Восточной Азии убыточны.
Полученные результаты
Мы использовали набор данных, который содержит информацию о бизнес-франшизе. Набор данных содержит более 50000 строк, и каждая строка содержит информацию об одной транзакции.
Наименее детализированные данные показывают связь между продажами и прибылью, но это не дает нам достаточного понимания реальной ситуации. Качественные переменные в визуализации сделали данные более детализированными, и мы обнаружили, что продажи мебели в Юго-Восточной Азии дают низкую прибыль.
После того, как данные отфильтровали, чтобы сохранить только транзакции на уровне строк по продаже мебели в этом регионе, мы изучили дезагрегированные отфильтрованные данные. Когда мы просмотрели данные на самом высоком уровне детализации, мы обнаружили, что многие сделки с мебелью в Юго-Восточной Азии являются убыточными.
Проверка знаний
Какая из следующих диаграмм в предыдущем примере имеет самый высокий уровень детализации?
Резюме
Теперь вы понимаете, как предопределенные агрегаторы влияют на данные, а также как различные уровни детализации влияют на анализ данных.