Sdmx что это такое
Журнал ВРМ World
Инициатива SDMX: новые подходы к обмену статистическими данными
История вопроса
Считается, что история мировой стандартизации статистических данных началась в 1928 г. на Международной конференции по экономической статистике (International Conference Relating to Economic Statistics), организованной Лигой Наций (League of Nations). После Второй мировой войны история создания международных стандартов продолжилась выпуском в 1947 г. документа «Система мер для оценки национального дохода и составления социальных счетов» (Measurement of National Income and the Construction of Social Accounts), созданного под эгидой ООН, и «Руководства по составлению платежного баланса» (Balance of Payments Manual) от Мирового банка в 1948 г.
Разработка стандартов для обмена информацией совпала с появлением потребности в новых экономических данных на международном уровне. Развитие экономики привело к тому, что возникла необходимость в макроэкономических данных, а великая депрессия 1930-х годов продемонстрировала, что для достижения более стабильной экономики в мировом масштабе государства должны сотрудничать. Стало ясно, что макроэкономические данные различных стран должны быть легко сравнимы между собой. Помимо этого, появилась потребность в новом типе стандартизованной информации, описывающей, откуда берутся данные национальных экономик, т.е. источники этих данных и способы их распространения.
Как и в случае с обычными данными, вновь появляющиеся наборы метаданных также вовлекаются в обмен между государствами, региональными и международными организациями и общественностью. Из этого логически вытекает необходимость разработки стандартов обмена метаданными.
Возвращаясь к инициативе SDMX, необходимо отметить, что в рамки ее деятельности входит обмен данными и метаданными в пределах совместной работы финансовых и экономических организаций, входящих в это сообщество. Таким образом, ее деятельность направлена на выработку стандартов преимущественно в области социально-экономической статистики.
Стандарт SDMX
Проекты SDMX
Наряду с разработкой первого стандарта SDMX в рамках этой инициативы выполняется и ряд других проектов, направленных на поддержку и развитие новых электронных стандартов обмена данными. Проекты SDMX нацелены на использование новых интернет-технологий и опыта тех, кто занимается бизнес-требованиями и IT поддержкой для сбора, компиляции и распространения статистической информации.
В настоящее время в рамках организации SDMX выполняется четыре проекта:
Практическое исследование новых электронных стандартов обмена данными
В фокусе данного проекта было изучение способов, с помощью которых новые интернет-технологии, такие как XML, web-сервисы и другие, могут быть использованы для упрощения сбора, компиляции и распространения статистической информации.
К настоящему времени подготовлен набор технических проектов, устанавливающих стандарты. Эти проекты доступны для комментариев на сайте SDMX-инициативы (http://www.sdmx.org/). В них содержится детальная информация о результатах проекта.
Если говорить коротко, то в рамках этого проекта новые и экспериментальные стандарты, основанные на web-технологиях, были использованы для обработки статистики внешнего долга, предоставленной BIS, IMF, OECD и Мировым банком.
Более подробную информацию об этом проекте можно найти по адресу http://www.registrysolutions.co.uk/sdmxDemo/notes/index.htm.
Пакетный обмен данными
К настоящему времени в рамках проекта разработана модель синтаксиса GESMES для временных рядов, названная GESMES/TS. На сайте SDMX-инициативы (http://www.sdmx.org/) сейчас доступна третья, последняя версия этого синтаксиса, а также руководство для пользователей. Последнее описывает модель данных, которая используется в этой версии, синтаксис EDIFACT и дает указания по разработке приложений, необходимых для использования GESMES/TS при пакетном обмене данных.
Создание общего словаря метаданных
Задачей этого проекта является создание и поддержка ключевого набора элементов метаданных и связанных с ними определений с целью улучшения стандартизации содержимого метаданных и стимулирования работы по совместимости данных на международном уровне.
Обновленная версия этого словаря была выпущена в апреле 2004 г. Она содержит полный набор определений, описывающих статистические данные и процессы, которые используются для их компиляции государственными агентствами и международными организациями. Эта версия также доступна на сайте SDMX-инициативы.
Целью проекта является содействие и расширение обмена метаданными среди международных агентств и между странами с помощью стандартизации процедуры организации репозиториев метаданных.
Проект имеет две краткосрочных цели: 1) идентификация общих моментов в структурах метаданных, входящих в состав наборов макроэкономических данных, которые собираются и хранятся в репозиториях; 2) использование этих общностей для развития стандартизации. В работе должен учитываться уже накопленный опыт создания репозиториев метаданных, который есть у IMF и EUROSTAT.
Долгосрочной целью проекта является создание web-сайтов государственных и международных структур и организаций частного сектора с использованием одного и того же словаря поиска. Такие сайты должны предоставлять возможности поиска по ним. При этом один запрос может быть одновременно отправлен по разным адресам, что сделает возможной компиляцию агрегированных результатов. Выполнение этого проекта также будет связано как с деятельностью по практическому исследованию новых электронных стандартов обмена данными, так и с работами по другим проектам, связанным с моделями и словарями данных и метаданных.
Текущее состояние дел по этому проекту также отражено на сайте SDMX-инициативы.
Практическое применение стандарта SDMX
Федеральный резервный банк Нью-Йорка (Federal Reserve Bank of New York) разместил на своем сайте данные об обменных курсах, используя стандарты SDMX, разработанные в ходе практического исследования новых электронных стандартов обмена данными в 2003 г. (http://www.newyorkfed.org/xml/fx.html).
Данные, оформленные таким образом, доступны для автоматизированного использования. Структуры, схемы и списки кодов, поддерживающие эти файлы, также совместимы со стандартами SDMX.
Это первый известный случай применения SDMX-стандартов для публикации данных в интернете.
Помимо этого, Федеральный резервный банк Нью-Йорка информировал организации, входящие в SDMX-инициативу, о том, что банком также рассматривается вопрос о размещении в интернете и других статистических рядов данных на основе тех же стандартов.
Следующая статья рубрики будет посвящена техническому описанию стандарта SDMX.
Публикации
1 Инициатива обмена статистическим данными и метаданными.
3 Термин «перекрестные форматы или данные» (cross-sectional formats/data) используется в случаях, когда основным параметром для организации данных является не время, а какое-либо другое измерение.
Международный стандарт обмена данными SDMX (Statistical Data and Metadata eXchange)
В русскоязычном интернете весьма мало информации о SDMX, несмотря на то, что этот стандарт давно используется для публикации и обмена данными многими странами и международными организациями. Инициатива разработки стандарта была запущена семью международными организациями, работающими со статистическими данными, которые стали спонсорами разработки. Основной целью было упрощение обмена статистическими данными между такими организациями, создание стандарта такого обмена и описание бизнес-процесса по внедрению данного стандарта. Единый подход не только позволяет упростить доступ к статистическим данным, но и с помощью метаданных (данные о данных) делает более доступным понимание их смысла и содержания.
Основным сайтом инициативы SDMX выступает сайт sdmx.org, там же содержится перечень утвержденных междоменных концептов, справочников и классификаторов. Каждая организация, присоединяющаяся к стандарту, может его расширить и дополнить, используя специальную административную процедуру регистрации.
Стандарт не является жестким руководством к действию, организации сами выбирают, какие элементы SDMX они будут использовать и для каких целей.
Описание стандарта SDMX содержит следующие компоненты:
Информационная модель SDMX
Чем статистические данные отличаются от обычных данных? Да в общем-то ничем.
Статистические данные — совокупность упорядоченных, классифицированных данных о некотором массовом явлении или процессе. Характеризуются набором измерений (концептов, в терминах SDMX), в качестве одного из которых обычно выступает временной период. Для обработки и анализа таких данных обычно используют BI инструменты.
Статистическое наблюдение – это набор конкретных значений концептов, однозначно характеризующих каждую единицу совокупности массива данных.
Число «208,36» представляет собой статистическое наблюдение, определяемое набором концептов (все данные вымышленные)
В SDMX концепт является базовым объектом структуры и представляет собой качественную характеристику статистических наблюдений. Значениями концепта может быть число, строка, дата или значения из справочников кодов ( CODELIST ). Это представление может быть переопределено в структуре данных (Data Structure Definition), когда концепт будет использован как измерение или атрибут.
Справочники кодов представляют собой простой список «ключ-значение». В списке перечисляются множество значений, которые будут использоваться в представлении: показатели, атрибуты и другие элементы структурной части SDMX. Они дополняются другими структурными метаданными, которые могут отражать специфичное для разных языков описание и иерархическую организацию кодов.
Принцип кодирования структурных объектов SDMX определен в стандарте: допустимы латинские символы в верхнем регистре, цифры и знак подчеркивания. Кроме того, поддерживается версионность структур.
Описание структуры данных Data Structure Definition ( DSD ) определяет соответствующий состав и порядок концептов для формирования конечного набора данных ( DATASET ). Каждому концепту, входящему в структуру, дается определение его роли в наборе данных:
Концепт | Роль | Тип данных |
Периодичность | Измерение | Справочник |
Страна | Измерение | Справочник |
Функциональная категория | Измерение | Справочник |
Период | Измерение времени | Дата |
Единица измерения | Атрибут | Справочник |
Значение | Значение | Число |
Набор данных ( DATASET ) — это коллекция однородных данных, имеющих общую структуру DSD. Может содержать временные серии (time series) или же нескольких серий в определенный момент времени (перекрёстные данные – Cross-Sectional Data).
Связь CONCEPTS, CODELISTS, DSD и DATASET
Пример набора данных с сайта Европейского центрального банка. В поле «Key» указан набор измерений для каждой временной серии, разделенные точкой они образуют уникальный ключ
Данные временной серии
Метаданные
В SDMX метаданные (Metadata) разделены на две группы:
Описание структуры метаданных Metadata Structure Definition ( MSD ) включает информацию о том, как организованы наборы метаданных, содержащие ссылочные значения (аналогично DSD). В частности, MSD описывает, что входит в обмен метаданными и как концепты соотносятся друг относительно друга, как они будут показаны (в виде текста или значения из справочника) и с каким типом объекта (agency, dataflow, data provider, dataset и др.) они связаны.
Набор ссылочных метаданных ( METADATASET ) — это информация, непосредственно описывающая статистический подход, организацию, предоставляющую данные или структуру данных, календарь публикаций, качество данных и прочее, в соответствии со структурой метаданных.
Представление ссылочных метаданных на сайте Европейского центрального банка
Руководящие принципы по информационному наполнению
Руководящие принципы по информационному наполнению (Content-oriented guidelines) — это набор рекомендаций в пределах SDMX стандарта. Их цель — максимальная совместимость в обмене данными и метаданными между организациями. Их использование между статистическими организациями поощряется насколько это возможно. Основными документами являются:
Концепты могут быть использованы как для данных, так и для метаданных. Каждый концепт имеет уникальный код и описание контекста, в котором данный концепт может быть использован, а также презентацию в SDMX-стандарте.
Статистические предметно-ориентированные области (Content-Oriented Domains) — классификация верхнего уровня, основанная на работе Европейской экономической комиссии ООН (UNECE) о статистических областях. Классификация предлагает стартовую точку в организации обмена статистических данных и метаданных.
Общий словарь метаданных Metadata Common Vocabulary ( MCV ) содержит концепты и связанные с ними измерения, используемые в структурных и ссылочных метаданных международных организаций и национальных агентств. MCV — словарь который рекомендует использовать общую терминологию с целью упростить коммуникации и понимание. MCV тесно привязана к междоменным концептам и также содержит все эти концепты, указывая их определение и описание контекста.
IT-инструменты для работы с SDMX
Основным инструментом для работы со структурными метаданными является разработка компании Metadata Technology — Fusion Registry. Работает как веб-приложение. Существует в двух версиях – Community (бесплатная версия с ограничениями по возможностям) и Enterprise Edition (платная). Данное программное обеспечение в качестве единого регистратора (единой точки сбора и распространения данных и метаданных) использует Международный валютный фонд sdmxcentral.imf.org. Также этот программный продукт использует SDMX-комьюнити — registry.sdmx.org.
В Fusion Registry последних версий практически полностью реализован весь функционал стандарта. Приложение также может работать как SDMX регистратор. К сожалению, отсутствует возможность формирования данных и метаданных в SDMX формате.
Data Structure Wizard — Java-приложение для создания структурных метаданных версии 2.0 и 2.1, поддерживает создание всех основных SDMX сущностей.
SDMX converter — основной инструмент для работы с SDMX данными, созданный Евростатом. Позволяет сформировать набор данных (но не метаданных) из файлов формата Excel, CSV, FLR, а также конвертировать данные между различными форматами SDMX.
Вместо заключения
Стандартизация статистической информации в рамках стандарта SDMX существенно упрощает распространение и анализ данных. Использование web-сервисов позволяет упростить процессы обработки массивов информации и обеспечить подключение смежных систем, предоставляя любому пользователю возможность получить и сравнить интересующие его макроэкономические показатели по разным странам мира. Указанные преимущества стандарта SDMX лежат в основе реализуемого в настоящее время в России межведомственного проекта по внедрению стандарта в практику распространения статистических данных как в рамках информационного обмена с международными организациями, так и в рамках предоставления данных неограниченному кругу пользователей с использованием портальных технологий.
Sdmx что это такое
Способы организации данных
Между структурой «куба» (cube structure), обычно используемой для обработки статистических данных, и «ключевым понятием» информационной модели SDMX существует некоторое сходство. Важно отметить, что данные, структурированные в соответствие с информационной моделью SDMX, оптимизированы для обмена, в т.ч. с партнерами, которые не имеют технической возможности для обработки данных, поступающих от сложных статистических систем в виде кубических структур. Временные ряды стандарта SDMX могут рассматриваться как «продольные срезы» (slices) куба. Такой срез определяется своим ключом. Ключ содержит значения всех характеристик, входящих в ключевое понятие, за исключением временного измерения. Данные, структурированные в соответствии со стандартом SDMX, могут быть преобразованы в кубические форматы; полученные в результате базы данных могут использоваться для обмена в соответствие с этим стандартом.
Форматы данных SDMX
Поскольку все форматы SDMX-ML являются практическим воплощением одной и той же информационной модели, а все сообщения о данных могут быть получены из сообщения об определении структуры, которое описывает набор данных, то между всеми форматами данных возможно осуществление стандартных операций преобразования. Эти операции могут проводиться с помощью родовых инструментов трансформации, полезных для всех пользователей SDMX-ML. Помимо того, эти инструменты не относятся только к отдельным ключевым понятиям наборов данных, а являются общеупотребительными (даже если форматы, с которыми они имеют дело, являются таковыми).
Модули XML-схемы
В рассматриваемой архитектуре XML-схемы существует так называемая «схема упаковки» (packaging scheme). В основе этой схемы лежит идея, что пространства имен XML могут быть использованы как модули для того, чтобы любой пользователь или приложение могли иметь доступ ко всей библиотеке, даже зная только часть ее.
Пример электронного документа в формате SDMX-ML
В заключение кратко рассмотрим основных конструкций языка SDMX-ML, для чего воспользуемся небольшим примером, входящим в состав пакета спецификаций языка SDMX-ML.
Статистические данные, приведенные в этом примере, это величины внешнего долга, подлежащие погашению, в млн. долларов США. Данные приводятся на каждый месяц на начало отчетного периода:
Отчетный период | Данные |
2000-01 | 3.14 |
2000-02 | 3.14 |
2000-03 | 4.29 |
2000-04 | 6.04 |
2000-05 | 5.18 |
2000-06 | 5.07 |
2000-07 | 3.13 |
2008-08 | 1.17 |
2000-09 | 1.14 |
2000-10 | 3.04 |
2000-11 | 1.14 |
2000-12 | 3.24 |
XML-код этого примера представлен в Листинге 1.
Прежде всего стоит обратить внимание на объявления пространств имен, реализующее принцип модульности, о котором шла речь выше.
Элемент первого уровня определяет заголовочные поля, некоторые из которых представлены в этом примере. Элемент описывает поток данных, которое в сочетании с указанием времени однозначно идентифицирует набор данных. Элемент показывает, является ли сообщение тестовым или нет.
Заключение
С полной спецификацией этого стандарта можно познакомиться на сайте SDMX-инициативы: http://www.sdmx.org.
2 Инициатива обмена статистическим данными и метаданными.
Sdmx что это такое
История вопроса
Считается, что история мировой стандартизации статистических данных началась в 1928 г. на Международной конференции по экономической статистике (International Conference Relating to Economic Statistics), организованной Лигой Наций (League of Nations). После Второй мировой войны история создания международных стандартов продолжилась выпуском в 1947 г. документа «Система мер для оценки национального дохода и составления социальных счетов» (Measurement of National Income and the Construction of Social Accounts), созданного под эгидой ООН, и «Руководства по составлению платежного баланса» (Balance of Payments Manual) от Мирового банка в 1948 г.
Разработка стандартов для обмена информацией совпала с появлением потребности в новых экономических данных на международном уровне. Развитие экономики привело к тому, что возникла необходимость в макроэкономических данных, а великая депрессия 1930-х годов продемонстрировала, что для достижения более стабильной экономики в мировом масштабе государства должны сотрудничать. Стало ясно, что макроэкономические данные различных стран должны быть легко сравнимы между собой. Помимо этого, появилась потребность в новом типе стандартизованной информации, описывающей, откуда берутся данные национальных экономик, т.е. источники этих данных и способы их распространения.
Как и в случае с обычными данными, вновь появляющиеся наборы метаданных также вовлекаются в обмен между государствами, региональными и международными организациями и общественностью. Из этого логически вытекает необходимость разработки стандартов обмена метаданными.
Возвращаясь к инициативе SDMX, необходимо отметить, что в рамки ее деятельности входит обмен данными и метаданными в пределах совместной работы финансовых и экономических организаций, входящих в это сообщество. Таким образом, ее деятельность направлена на выработку стандартов преимущественно в области социально-экономической статистики.
Стандарт SDMX
Проекты SDMX
Наряду с разработкой первого стандарта SDMX в рамках этой инициативы выполняется и ряд других проектов, направленных на поддержку и развитие новых электронных стандартов обмена данными. Проекты SDMX нацелены на использование новых интернет-технологий и опыта тех, кто занимается бизнес-требованиями и IT поддержкой для сбора, компиляции и распространения статистической информации.
Практическое исследование новых электронных стандартов обмена данными
В фокусе данного проекта было изучение способов, с помощью которых новые интернет-технологии, такие как XML, web-сервисы и другие, могут быть использованы для упрощения сбора, компиляции и распространения статистической информации.
К настоящему времени подготовлен набор технических проектов, устанавливающих стандарты. Эти проекты доступны для комментариев на сайте SDMX-инициативы (http://www.sdmx.org/). В них содержится детальная информация о результатах проекта.
Если говорить коротко, то в рамках этого проекта новые и экспериментальные стандарты, основанные на web-технологиях, были использованы для обработки статистики внешнего долга, предоставленной BIS, IMF, OECD и Мировым банком.
Более подробную информацию об этом проекте можно найти по адресу http://www.registrysolutions.co.uk/sdmxDemo/notes/index.htm.
Пакетный обмен данными
К настоящему времени в рамках проекта разработана модель синтаксиса GESMES для временных рядов, названная GESMES/TS. На сайте SDMX-инициативы (http://www.sdmx.org/) сейчас доступна третья, последняя версия этого синтаксиса, а также руководство для пользователей. Последнее описывает модель данных, которая используется в этой версии, синтаксис EDIFACT и дает указания по разработке приложений, необходимых для использования GESMES/TS при пакетном обмене данных.
Создание общего словаря метаданных
Задачей этого проекта является создание и поддержка ключевого набора элементов метаданных и связанных с ними определений с целью улучшения стандартизации содержимого метаданных и стимулирования работы по совместимости данных на международном уровне.
Обновленная версия этого словаря была выпущена в апреле 2004 г. Она содержит полный набор определений, описывающих статистические данные и процессы, которые используются для их компиляции государственными агентствами и международными организациями. Эта версия также доступна на сайте SDMX-инициативы.
Целью проекта является содействие и расширение обмена метаданными среди международных агентств и между странами с помощью стандартизации процедуры организации репозиториев метаданных.
Проект имеет две краткосрочных цели: 1) идентификация общих моментов в структурах метаданных, входящих в состав наборов макроэкономических данных, которые собираются и хранятся в репозиториях; 2) использование этих общностей для развития стандартизации. В работе должен учитываться уже накопленный опыт создания репозиториев метаданных, который есть у IMF и EUROSTAT.
Долгосрочной целью проекта является создание web-сайтов государственных и международных структур и организаций частного сектора с использованием одного и того же словаря поиска. Такие сайты должны предоставлять возможности поиска по ним. При этом один запрос может быть одновременно отправлен по разным адресам, что сделает возможной компиляцию агрегированных результатов. Выполнение этого проекта также будет связано как с деятельностью по практическому исследованию новых электронных стандартов обмена данными, так и с работами по другим проектам, связанным с моделями и словарями данных и метаданных.
Текущее состояние дел по этому проекту также отражено на сайте SDMX-инициативы.
Практическое применение стандарта SDMX
Федеральный резервный банк Нью-Йорка (Federal Reserve Bank of New York) разместил на своем сайте данные об обменных курсах, используя стандарты SDMX, разработанные в ходе практического исследования новых электронных стандартов обмена данными в 2003 г. (http://www.newyorkfed.org/xml/fx.html).
Данные, оформленные таким образом, доступны для автоматизированного использования. Структуры, схемы и списки кодов, поддерживающие эти файлы, также совместимы со стандартами SDMX.
Это первый известный случай применения SDMX-стандартов для публикации данных в интернете.
Помимо этого, Федеральный резервный банк Нью-Йорка информировал организации, входящие в SDMX-инициативу, о том, что банком также рассматривается вопрос о размещении в интернете и других статистических рядов данных на основе тех же стандартов.
Следующая статья рубрики будет посвящена техническому описанию стандарта SDMX.
Публикации
1 Инициатива обмена статистическим данными и метаданными.
3 Термин «перекрестные форматы или данные» (cross-sectional formats/data) используется в случаях, когда основным параметром для организации данных является не время, а какое-либо другое измерение.