Я уже писал про SAS Studio в статье. Однако теперь давайте познакомимся чуть ближе с самим продуктом. И посмотрим на что он способен.
Ниже привожу два видео, которые покажут беглый взгляд на данный продукт.
Рекомендую также прочесть:
SAS Studio. Первый взгляд.: 9 комментариев
Мне SAS Studio понравился тем, что благодаря ему можно обучать широкую аудиторию пользователей работе в SAS, не озадачиваясь, установлен у твоего слушателя SAS или нет. Оптимален для skype-формата обучения. Оба загружаете программу в браузере, подключаете демонстрацию экрана, синхронизируйтесь и можно начинать учебный процесс. Как раз для обучения на базе SAS Studio перевели Little SAS Book. Студенты и коммерческие клиенты очень довольны. SAS Studio как нельзя лучше подходит, когда нужно оперативно обучить человека базовым навыкам работы в SAS, при этом слушатель не скован территориально, местом работы, университетом, где установлено программное обеспечение SAS. Обучение становится мобильным.
Честно говоря, если речь идет о расшаривании экрана, то можно в SAS EG показывать. Здесь разницы нет. Другое дело, когда пользователю нужно ручками попробовать код написать и у него не установлен локально SAS EG — тогда Ваш способ будет предпочтительным.
SASStudio на данный момент очень ограничен функционально, в нём нету вещей, которые так любят пользователи в EGuide, а именно возможность накликивания без какого-то понимания кода!
С своей стороны я вижу существенный недостаток — отсутствие загружать и выгружать внешние файлы напрямую в клиент SASStudio. Пользователю любят Excel, а с SASStudio требуется хитроумный способ взаимодействия этих двух систем.
К хорошему быстро привыкаешь =)
Ну и я молчу о преднастраиваемых библиотеках на уровне администрирования в Management Console. Пока он никак не реализован.
Кстати, коллеги, сориентируйте, насколько востребован сейчас SAS EG? В сравнении с тем же SAS EM. А от привычки «накликивания без какого-то понимания кода» надо отучать. Не устану повторять, что привычка делать все с помощью Java Enterprise до добра не доводит, за короткое время можно построить 80% модели и потом застрять, не найдя нужной кнопки.
Мне кажется вопрос некорректный. Если речь идёт о моделировании, то SAS EM востребован. И эта востребованность со стороны аналитика-моделера. В противном случае востребованности нет.
Сегодня задач на моделирование очень мало, в отличии от рутинных отчётов, обработки данных, презентаций и тд, с которыми хорошо справляется EG. А это задачи бизнес пользователей, иногда аналитиков.
А от привычки «накликивания без какого-то понимания кода» надо отучать. Простите, а чему учить и кого учить? Если кодить, то кого учить? Стоит ли эти вложения выхлопа? А если разбираться в математике, то зачем нужен SAS?
Пока на рынке востребованности я не наблюдаю в этом направлении. А с учетом текущей ситуации не так много компаний реально могут себе позволить SAS.
По поводу SAS EG и SAS EM ясно. Разные задачи. Но простите, а что если я поставил SAS, мне и в математике не надо разбираться? Ну ok, я этих примеров, когда с наскоку пытаются обрабатывать данные, строить модели, насмотрелся. Когда человек накликиванием на глаз перебирает в SAS EM оптимальное количество наблюдений в узле, чтоб дерево построить или крутит prior correction в надежде улучшить прогнозирование редких событий. Только это не моделер, а заготовка для моделера. Да, это нормально, да так принято. У нас здесь, в России. Но как говорил мой университетский преподаватель, если миллион фирм делает херню, совсем необязательно становится миллионпервой фирмой, делающей такую же херню. Вообще фразы в духе «я моделер (аналитик), а не программист», «я моделю строю, а не программирую» я только здесь в России слышу. В Штатах, например, нет такого разделения. Ты и программист, и моделер, и в бизнесе клиента должен разбираться. Словом, междисциплинарник. Чему и кого учить хорошо написано здесь http://datareview.info/article/leonid-zhukov-nauchnyih-veshhey-v-data-science-poka-net/
Вот вы мне глаза открыли, что в России узкоспециализированные специалисты. Я всегда считал, что только в России кандидат может и модели строить и коды на 10 языках писать, а еще и машины если понадобиться чинить :). А как раз на западе предпочтение отдается узкоспециализированным кандидатам.
Что касается работы с SAS EM — то здесь практически все должны уметь работать и с SAS EG (либо в Base писать). Т.е. с точки зрения математика — множество EG включает в себя множество EM :).
Что ж Вы молчали раньше? Срочно мне этих кандидатов ) По поводу Запада и узкопрофильников. Конкретный пример — Citibank в Штатах. Идет постепенное вынедрение SAS. Production переводят на Java, моделирование — на R. Никто не плачется, никто не говорит, что он моделер, а не программер, что R жутко неудобен, что вот опять писать код. У нас же стоило Олегу Соловьеву предложить перевести проекты по скорингу на R, срач поднялся до небес. Это те самые специалисты взвыли, как бы не заставили их помимо R еще и машины чинить ) Наверно, читали эту эпическую сагу на форуме sql.ru. По поводу SAS EM. Ключевое слово «должны уметь» ) По моим наблюдениям (а это и конкретные проекты по скорингу и образовательная практика), как правило, у тех, кто работает в SAS EM, уровень владения языком оставляет желать лучшего. Для многих вообще было откровением, что в SAS EM помимо встроенных алгоритмов можно прекрасно писать свои собственные. Я почему о коде завел речь. Если есть возможность повысить точность модели в SAS EM, а подходящей кнопки нет, можно обратиться к коду. Например вместо Maximum Normal уметь преобразование сложенный корень написать и использовать. А в большинстве случаев я вижу именно «накликивание». Особенно у начинающих моделеров, студентов ВУЗов, входящих в академическую программу. Часто это обусловлен тем, что изучение начинается с SAS EM, а не с SAS Base. И выходит, что человек кнопками построить нейросеть может, а разобраться в сгенерированном коде, выяснить, где косяк, где нужно другую нормировку (при работе с теми же нормализованными RBF-сетями) ему уже не по силам.
Да, тут три уровня знаний и умений (касательно анализа данных). По уровню значимости я бы распределил так:
1) Знание соответствующей математики.
2) Знание соответствующих алгоритмов и структур данных и умение заимплементировать их на каком-либо (любом) языке программирования. Не обязательно все методы/алгоритмы, а хотя бы какую-то часть, чтобы иметь представление что происходит внутри следующего — 3-го уровня, и при необходимости вносить правки и уметь интерпретировать результаты.
Учитывая это (и если Вы согласны с пунктами), очень трудно стать хорошим аналитиком — нужно уметь сразу «всё» )
Data Lake – от теории к практике. Методы интеграции данных Hadoop и корпоративного DWH
В этой статье я хочу рассказать про важную задачу, о которой нужно думать и нужно уметь решать, если в аналитической платформе для работы с данными появляется такой важный компонент как Hadoop — задача интеграции данных Hadoop и данных корпоративного DWH. В Data Lake в Тинькофф Банке мы научились эффективно решать эту задачу и дальше в статье я расскажу, как мы это сделали.
Данная статья является продолжением цикла статей про Data Lake в Тинькофф Банке (предыдущая статья Data Lake – от теории к практике. Сказ про то, как мы строим ETL на Hadoop).
Задача
Лирическое отступление. Выше на рисунке изображено живописное озера, а точнее система озер – одно поменьше, другое побольше. То, что поменьше, красивое такое, облагороженное, с яхтами – это корпоративное DWH. А то, что виднеется на горизонте и не помещается на картинке в силу своих размеров – это Hadoop. Лирическое отступление окончено, к делу. Задача у нас была достаточно тривиальная с точки зрения требований, и нетривиальная с точки зрения выбора технологии и реализации. Нам надо было прорыть канал между этими двумя озерами, наладить простой и эффективный способ публикации данных из Hadoop в DWH и обратно в рамках регламентных процессов, проистекающих в Data Lake.
Выбор технологии
Далее расскажу про преимущества и недостатки каждого из них.
Sqoop
Sqoop — это средство, предназначенное для передачи данных между кластерами Hadoop и реляционными базами данных. С его помощью можно импортировать данные из системы управления реляционной базой данных (реляционной СУБД), например, SQL Server, MySQL или Oracle, в распределенную файловую систему Hadoop (HDFS), преобразовать данные в системе Hadoop с использованием MapReduce или Hive, а затем экспортировать данные обратно в реляционную СУБД.
Т.к. в задаче изначально не предполагалась трансформация, то вроде бы Sqoop идеально подходит для решения поставленной задачи. Получается, что как только появляется потребность публикации таблицы (или в Hadoop, или в Greenplum), необходимо написать задание (job) на Sqoop и это задание научиться вызывать на одном из планировщиков (SAS или Informatica), в зависимости от регламента. Всё хорошо, но Sqoop работает с Greenplum через JDBC. Мы столкнулись с крайне низкой производительностью. Тестовая таблица в 30 Gb выгружалась в Greenplum около 1 часа. Результат крайне неудовлетворительный. От Sqoop отказались. Хотя в целом, это очень удобный инструмент для того что бы, например, выгрузить разово в Hadoop, данные какой-либо не очень большой таблицы из реляционной БД. Но, для того что бы строить регламентные процессы на Sqoop, нужно четко понимать требования к производительности работы этих процессов и исходя из этого принимать решение.
Informatica Big Data Edition
Informatica Big Data Edition мы используем как ELT движок обработки данных в Hadoop. Т.е. как раз с помощью Informatica BDE мы строим в Hadoop те витрины, которые нужно опубликовать в Greenplum, где они станут доступны другим прикладным системам банка. Вроде как логично, после того как ELT процессы отработали на кластере Hadoop, построили витрину данных, сделать push этой витрины в Greenplum. Для работы с СУБД Greenplum в Informatica BDE есть PWX for Greenplum, который может работать как в режиме Native, так и в режиме Hive. Т.е., как только появляется потребность публикации таблицы из Hadoop в Greenplum, необходимо написать задание (mapping) на Informatica BDE и это задание вызвать на планировщике Informatica. Всё хорошо, но есть нюанс. PWX for Greenplum в режиме Native работает как классический ETL, т.е. вычитывает из Hive данные на ETL сервер и уже на ETL сервере поднимает сессию gpload и грузит данные в Greenplum. Получается, что весь поток данных упирается в ETL-сервер. Далее провели эксперименты в режиме Hive. PWX for Greenplum в режиме Hive работает без участия ETL сервера, ETL сервер только управляет процессом, вся работа с данными происходит на стороне кластера Hadoop (компоненты Informatica BDE устанавливаются так же и на кластер Hadoop). В этом случае сессии gpload поднимаются на узлах кластера Hadoop и грузят данные в Greenplum. Здесь мы не получаем узкое место в виде ETL сервера и производительность работы такого подхода получилась достаточно хорошей — тестовая таблица в 30 Gb выгружалась в Greenplum около 15 минут. Но PWX for Greenplum в режиме Hive работал, на момент проведения исследований, нестабильно. И есть ещё один важный момент. Если требуется сделать обратную публикацию данных (из Greenplum в Hadoop) PWX for Greenplum работает через ODBC. Для решения задачи было принято решение не использовать Informatica BDE.
SAS Data Integration Studio
SAS Data Integration Studio мы используем как ELT движок обработки данных в Greenplum. Здесь получается другая картина. Informatica BDE строит необходимую витрину в Hadoop, далее SAS DIS делает pull этой витрины в Greenplum. Или иначе, SAS DIS строит какую-либо витрину в Greenplum, далее делает push этой витрины в Hadoop. Вроде бы красиво. Для работы с Hadoop в SAS DIS есть специальные компонент SAS Access Interface to Hadoop. Проводя параллель с PWX for Greenplum, у SAS Access Interface to Hadoop нет режима работы Hive и поэтому все данные польются через ETL сервер. Получили неудовлетворительную производительность работы процессов.
gphdfs
gphdfs – утилита, входящая в состав СУБД Greenplum, позволяющая организовать параллельный транспорт данных между сегмент серверами Greenplum и узлами с данными Hadoop. Провели эксперименты с публикацией данных и из Hadoop в Greenplum, и обратно – производительность работы процессов просто поразила. Тестовая таблица в 30 Gb выгружалась в Greenplum около 2 минут.
Анализ полученных результатов
Для наглядности в таблице ниже приведены результаты исследований.
Вывод получился двусмысленный — с наименьшими проблемами в производительности работы процессов, мы получаем утилиту, которую совершенно неприемлемо использовать в разработке ETL процессов как есть. Мы задумались… ELT платформа SAS Data Integration Studio позволяет разрабатывать на ней свои компоненты (трансформы) и мы решили, для того что бы снизить трудоемкость разработки ETL процессов и снизить сложность интеграции в регламентные процессы, разработать два трансформа, которые облегчат работу с gphdfs без потери производительности работы целевых процессов. Далее расскажу о деталях реализации.
Реализация трансформов
У этих двух трансформов достаточно простая задача, выполнить последовательно набор операций вокруг Hive и gphdfs. Пример (дизайн) трансформа для публикации данных из Hadoop в Greenplum.
Разработчику остается добавить этот трансформ в job (задание) и указать названия входной и выходной таблиц. Разработка такого процесса занимает около 15 минут.
По аналогии был реализован трансформ для публикации данных из Greenplum в Hadoop.
ВАЖНО. Ещё один из бенефитов который мы получили решив эту задачу, мы потенциально готовы организовывать процесс offload-а данных из корпоративного DWH в более дешевый Hadoop.
С введением JMP (Jump) для статистики SAS воспользовался графическим интерфейсом пользователя, который был представлен Macintosh. Jump в основном используется для таких приложений, как Six Sigma, проектирования, контроля качества, инженерного и научного анализа.
SAS не зависит от платформы, что означает, что вы можете запускать SAS в любой операционной системе — Linux или Windows. SAS управляется программистами SAS, которые используют несколько последовательностей операций над наборами данных SAS для создания надлежащих отчетов для анализа данных.
За эти годы SAS добавила множество решений в свой портфель продуктов. У него есть решение для управления данными, качества данных, аналитики больших данных, интеллектуального анализа текста, борьбы с мошенничеством, науки о здоровье и т. Д. Мы можем с уверенностью предположить, что у SAS есть решение для любой области бизнеса.
Чтобы ознакомиться с перечнем доступных продуктов, посетите раздел SAS Components.
Почему мы используем SAS
SAS в основном работает с большими наборами данных. С помощью программного обеспечения SAS вы можете выполнять различные операции с данными, как —
Если говорить о компонентах SAS, то в SAS доступно более 200 компонентов.
Sr.No.
Компонент SAS и их использование
1
Это основной компонент, который содержит средство управления данными и язык программирования для анализа данных. Это также наиболее широко используемый.
Создавайте графики, презентации для лучшего понимания и демонстрации результатов в правильном формате.
Выполните статистический анализ с помощью дисперсионного анализа, регрессии, многомерного анализа, анализа выживаемости и психометрического анализа, анализа смешанной модели.
Эконометрика и анализ временных рядов.
Cинтерактивный матричный язык.
Анализ клинических испытаний.
SAS / Enterprise Miner
Это основной компонент, который содержит средство управления данными и язык программирования для анализа данных. Это также наиболее широко используемый.
Создавайте графики, презентации для лучшего понимания и демонстрации результатов в правильном формате.
Выполните статистический анализ с помощью дисперсионного анализа, регрессии, многомерного анализа, анализа выживаемости и психометрического анализа, анализа смешанной модели.
Эконометрика и анализ временных рядов.
Cинтерактивный матричный язык.
Анализ клинических испытаний.
SAS / Enterprise Miner
Типы программного обеспечения SAS
В основном мы используем Window SAS как в организации, так и в учебных заведениях. Некоторые организации используют Linux, но нет графического интерфейса пользователя, поэтому вы должны писать код для каждого запроса. Но в окне SAS есть много доступных утилит, которые очень помогают программистам, а также сокращают время написания кодов.
Окно SaS состоит из 5 частей.
Sr.No.
Окно SAS и их использование
1
Окно журнала похоже на окно выполнения, в котором мы можем проверить выполнение программы SAS. В этом окне мы также можем проверить ошибки. Очень важно каждый раз проверять окно журнала после запуска программы. Чтобы у нас было правильное представление о выполнении нашей программы.
Окно редактора — это та часть SAS, где мы пишем все коды. Это как блокнот.
Окно вывода — это окно результатов, в котором мы можем увидеть вывод нашей программы.
Это как индекс для всех выходов. Все программы, которые мы запустили в одном сеансе SAS, перечислены там, и вы можете открыть вывод, нажав на результат вывода. Но они упоминаются только на одном заседании SAS. Если мы закроем программное обеспечение, а затем откроем его, окно результатов будет пустым.
Здесь перечислены все библиотеки. Вы также можете просмотреть файлы, поддерживаемые вашей системой SAS, отсюда.
Окно журнала похоже на окно выполнения, в котором мы можем проверить выполнение программы SAS. В этом окне мы также можем проверить ошибки. Очень важно каждый раз проверять окно журнала после запуска программы. Чтобы у нас было правильное представление о выполнении нашей программы.
Окно редактора — это та часть SAS, где мы пишем все коды. Это как блокнот.
Окно вывода — это окно результатов, в котором мы можем увидеть вывод нашей программы.
Это как индекс для всех выходов. Все программы, которые мы запустили в одном сеансе SAS, перечислены там, и вы можете открыть вывод, нажав на результат вывода. Но они упоминаются только на одном заседании SAS. Если мы закроем программное обеспечение, а затем откроем его, окно результатов будет пустым.
Здесь перечислены все библиотеки. Вы также можете просмотреть файлы, поддерживаемые вашей системой SAS, отсюда.
Библиотеки в САС
Библиотеки как хранилище в SAS. Вы можете создать библиотеку и сохранить все похожие программы в этой библиотеке. SAS предоставляет вам возможность создавать несколько библиотек. Библиотека SAS имеет длину всего 8 символов.
В SAS доступны два типа библиотек:
Sr.No.
Окно SAS и их использование
1
Временная или рабочая библиотека
Это библиотека SAS по умолчанию. Все программы, которые мы создаем, хранятся в этой рабочей библиотеке, если мы не назначаем им другую библиотеку. Вы можете проверить эту рабочую библиотеку в окне просмотра. Если вы создаете программу SAS и не назначаете ей постоянную библиотеку, то, если после этого вы снова завершите сеанс, вы запустите программное обеспечение, тогда эта программа не будет в рабочей библиотеке. Потому что он будет там только в библиотеке Work, пока сеанс идет.
Это постоянные библиотеки САС. Мы можем создать новую библиотеку SAS, используя утилиты SAS или написав коды в окне редактора. Эти библиотеки названы постоянными, потому что если мы создадим программу в SAS и сохраним ее в этих постоянных библиотеках, они будут доступны столько, сколько нам нужно.
Временная или рабочая библиотека
Это библиотека SAS по умолчанию. Все программы, которые мы создаем, хранятся в этой рабочей библиотеке, если мы не назначаем им другую библиотеку. Вы можете проверить эту рабочую библиотеку в окне просмотра. Если вы создаете программу SAS и не назначаете ей постоянную библиотеку, то, если после этого вы снова завершите сеанс, вы запустите программное обеспечение, тогда эта программа не будет в рабочей библиотеке. Потому что он будет там только в библиотеке Work, пока сеанс идет.
Это постоянные библиотеки САС. Мы можем создать новую библиотеку SAS, используя утилиты SAS или написав коды в окне редактора. Эти библиотеки названы постоянными, потому что если мы создадим программу в SAS и сохраним ее в этих постоянных библиотеках, они будут доступны столько, сколько нам нужно.
SAS — Окружающая среда
SAS Institute Inc. выпустила бесплатную версию SAS University Edition, которая достаточно хороша для изучения программирования на SAS. Он предоставляет все функции, которые вам необходимо изучить в программировании BASE SAS, что, в свою очередь, позволяет изучать любой другой компонент SAS.
Скачать SAS University Edition
Настройка программного обеспечения для виртуализации
Прокрутите вниз на той же странице, чтобы найти установочный stpe-1. Этот шаг предоставляет ссылки для получения программного обеспечения для виртуализации, которое подходит вам. Если в вашей системе уже установлено какое-либо из этих программ, вы можете пропустить этот шаг.
Быстрый старт программного обеспечения для виртуализации
Если вы совершенно не знакомы со средой виртуализации, вы можете ознакомиться с ней, ознакомившись со следующими руководствами и видеороликами, доступными в шаге 2. Опять же, вы можете пропустить этот шаг, если вы уже знакомы.
Скачать файл Zip
На шаге 3 вы можете выбрать подходящую версию SAS University Edition, совместимую с имеющейся у вас средой виртуализации. Он загружается в виде zip-файла с именем, похожим на unvbasicvapp__9411005__vmx__en__sp0__1.zip
Разархивируйте zip-файл
Приведенный выше zip-файл необходимо распаковать и сохранить в соответствующем каталоге. В нашем случае мы выбрали zip-файл VMware, который показывает следующие файлы после распаковки.
Загрузка виртуальной машины
Включите виртуальную машину
Нажмите Power на этой виртуальной машине рядом с зеленой стрелкой, чтобы запустить виртуальную машину. Появится следующий экран.
Приведенный ниже экран появляется, когда виртуальный сервер SAS находится в состоянии загрузки, после чего запущенный виртуальный компьютер выдает запрос на переход к URL-адресу, который открывает среду SAS.
Запуск SAS studio
Откройте новую вкладку браузера и загрузите вышеуказанный URL (который отличается от одного компьютера к другому). Появится экран ниже, указывающий, что среда SAS готова.
SAS Environment
При нажатии на кнопку « Запустить SAS Studio» мы получаем среду SAS, которая по умолчанию открывается в режиме визуального программиста, как показано ниже.
Мы также можем изменить его в режим SAS programmer, нажав на выпадающий список.
Теперь мы готовы писать программы SAS.
SAS — интерфейс пользователя
Ниже приведено описание различных окон и их использования.
Главное окно SAS
Это окно, которое вы видите при входе в среду SAS. Слева находится панель навигации, используемая для навигации по различным функциям программирования. Справа находится Рабочая область, которая используется для написания кода и его выполнения.
Автозаполнение кода
Это очень мощная функция, которая помогает получить правильный синтаксис ключевых слов SAS, а также предоставляет ссылку на документацию по этому ключевому слову.
Выполнение программы
Выполнение кода выполняется нажатием на значок запуска, который является первым значком слева или кнопкой F3.
Журнал программы
Результат программы
Результат выполнения кода отображается на вкладке РЕЗУЛЬТАТЫ. По умолчанию они форматируются как HTML-таблицы.
Вкладки программы
Область навигации содержит функции для создания и управления программами. Он также предоставляет встроенные функции, которые будут использоваться с вашей программой.
Серверные файлы и папки
На этой вкладке мы можем создавать дополнительные программы, импортировать данные для анализа и запрашивать существующие данные. Он также может быть использован для создания ярлыков папок.
Задачи
Вкладка Tasks предоставляет функции для использования встроенных программ SAS, предоставляя только входные переменные. Например, в папке статистики вы можете найти программу SAS для выполнения линейной регрессии, предоставляя только имя набора данных SAS и имена переменных.
обрывки
На вкладке «Фрагменты кода» содержатся функции для записи макроса SAS и создания файлов из существующего набора данных.
Библиотеки программ
SAS хранит наборы данных в библиотеках SAS. Временная библиотека доступна только для одного сеанса и называется WORK. Но постоянные библиотеки доступны всегда.
Ярлыки файлов
Эта вкладка используется для доступа к файлам, которые хранятся вне среды SAS. Ярлыки для таких файлов хранятся на этой вкладке.
SAS — Структура программы
Программирование SAS включает в себя сначала создание / чтение наборов данных в память, а затем выполнение анализа этих данных. Нам нужно понять поток, в котором написана программа, чтобы достичь этого.
Структура программы SAS
На приведенной ниже схеме показаны шаги, которые должны быть записаны в данной последовательности для создания программы SAS.
Каждая программа SAS должна иметь все эти шаги для завершения чтения входных данных, анализа данных и выдачи результатов анализа. Также оператор RUN в конце каждого шага необходим для завершения выполнения этого шага.
Шаг данных
Этот шаг включает в себя загрузку необходимого набора данных в память SAS и определение переменных (также называемых столбцами) набора данных. Он также фиксирует записи (также называемые наблюдениями или объектами). Синтаксис для оператора DATA такой, как показано ниже.
Синтаксис
пример
PROC Step
Этот шаг включает в себя вызов встроенной процедуры SAS для анализа данных.
Синтаксис
пример
В приведенном ниже примере показано использование процедуры MEANS для печати средних значений числовых переменных в наборе данных.
Шаг ВЫХОДА
Данные из наборов данных могут отображаться с помощью условных операторов вывода.
Синтаксис
пример
В приведенном ниже примере показано использование выражения where в выходных данных для создания только нескольких записей из набора данных.
Полная программа SAS
Ниже приведен полный код для каждого из вышеуказанных шагов.
Выход программы
SAS — основной синтаксис
Как и любой другой язык программирования, язык SAS имеет свои собственные правила синтаксиса для создания программ SAS.
Три компонента любой программы SAS — операторы, переменные и наборы данных следуют приведенным ниже правилам синтаксиса.
Заявления SAS
Заявления могут начинаться где угодно и заканчиваться где угодно. Точка с запятой в конце последней строки обозначает конец оператора.
Многие операторы SAS могут находиться в одной строке, причем каждый оператор заканчивается точкой с запятой.
Пространство может использоваться для разделения компонентов в программной инструкции SAS.
Ключевые слова SAS не чувствительны к регистру.
Каждая программа SAS должна заканчиваться оператором RUN.
Заявления могут начинаться где угодно и заканчиваться где угодно. Точка с запятой в конце последней строки обозначает конец оператора.
Многие операторы SAS могут находиться в одной строке, причем каждый оператор заканчивается точкой с запятой.
Пространство может использоваться для разделения компонентов в программной инструкции SAS.
Ключевые слова SAS не чувствительны к регистру.
Каждая программа SAS должна заканчиваться оператором RUN.
Имена переменных SAS
Переменные в SAS представляют столбец в наборе данных SAS. Имена переменных следуют приведенным ниже правилам.
Это может быть максимум 32 символа.
Не может включать пробелы.
Он должен начинаться с букв от A до Z (без учета регистра) или подчеркивания (_).
Может включать цифры, но не в качестве первого символа.
Имена переменных нечувствительны к регистру.
Это может быть максимум 32 символа.
Не может включать пробелы.
Он должен начинаться с букв от A до Z (без учета регистра) или подчеркивания (_).
Может включать цифры, но не в качестве первого символа.
Имена переменных нечувствительны к регистру.
пример
Набор данных SAS
Оператор DATA отмечает создание нового набора данных SAS. Правила создания набора данных приведены ниже.
Одно слово после оператора DATA указывает имя временного набора данных. Это означает, что набор данных стирается в конце сеанса.
Имя набора данных может начинаться с имени библиотеки, что делает его постоянным набором данных. Это означает, что набор данных сохраняется после окончания сеанса.
Если имя набора данных SAS опущено, то SAS создает временный набор данных с именем, сгенерированным SAS, например — DATA1, DATA2 и т. Д.
Одно слово после оператора DATA указывает имя временного набора данных. Это означает, что набор данных стирается в конце сеанса.
Имя набора данных может начинаться с имени библиотеки, что делает его постоянным набором данных. Это означает, что набор данных сохраняется после окончания сеанса.
Если имя набора данных SAS опущено, то SAS создает временный набор данных с именем, сгенерированным SAS, например — DATA1, DATA2 и т. Д.
пример
Расширения файлов SAS
Программы SAS, файлы данных и результаты программ сохраняются с различными расширениями в окнах.
Комментарии в САС
Комментарии в коде SAS указываются двумя способами. Ниже приведены эти два формата.
*сообщение; введите комментарий
Комментарий в виде * сообщения; не может содержать точку с запятой или непревзойденную кавычку внутри него. Также не должно быть никаких ссылок на какие-либо макро-операторы внутри таких комментариев. Он может занимать несколько строк и иметь любую длину. Ниже приведен пример однострочного комментария —
Ниже приведен пример многострочного комментария:
/ * сообщение * / введите комментарий
Комментарий в виде / * message * / используется чаще и не может быть вложенным. Но он может занимать несколько строк и иметь любую длину. Ниже приведен пример однострочного комментария —
Ниже приведен пример многострочного комментария:
SAS — Наборы данных
Наборы данных называются временными наборами данных, если они используются программой SAS, а затем отбрасываются после запуска сеанса.
Наборы данных называются временными наборами данных, если они используются программой SAS, а затем отбрасываются после запуска сеанса.
Набор данных SAS хранится в виде строк и столбцов и также называется таблицей данных SAS. Ниже мы видим примеры постоянных наборов данных, которые встроены, а также выделены красным цветом из внешних источников.
SAS Встроенные наборы данных
Прокрутите вниз, чтобы найти набор данных с именем CARS. Двойной щелчок по этому набору данных откроет его в правой части окна, где мы сможем изучить его дальше. Мы также можем свернуть левую панель, используя кнопку просмотра максимизации под правой панелью.
Мы можем прокрутить вправо, используя полосу прокрутки внизу, чтобы изучить все столбцы и их значения в таблице.
Импорт внешних наборов данных
Далее Нажмите кнопку « Выбрать файлы» под программой импорта данных на правой панели. Ниже приведен список типов файлов, которые можно импортировать.
Мы выбираем файл employee.txt, хранящийся в локальной системе, и импортируем файл, как показано ниже.
Просмотр импортированных данных
Мы можем просмотреть импортированные данные, запустив код импорта по умолчанию, созданный с помощью параметра «Выполнить».
Мы можем импортировать любые другие типы файлов, используя тот же подход, что и выше, и использовать его в различных программах SAS.
SAS — переменные
В общем случае переменные в SAS представляют имена столбцов таблиц данных, которые он анализирует. Но это также может быть использовано для других целей, таких как использование в качестве счетчика в цикле программирования. В текущей главе мы увидим использование переменных SAS в качестве имен столбцов набора данных SAS.
Типы переменных SAS
SAS имеет три типа переменных, как показано ниже:
Числовые переменные
Это тип переменной по умолчанию. Эти переменные используются в математических выражениях.
Синтаксис
В приведенном выше синтаксисе оператор INPUT показывает объявление числовых переменных.
пример
Символьные переменные
Синтаксис
В приведенном выше синтаксисе оператор INPUT показывает объявление символьных переменных.
пример
Переменные даты
Эти переменные обрабатываются только как даты, и они должны быть в допустимых форматах даты. Переменная становится переменной даты, добавляя формат даты с пробелом в конце имени переменной.
Синтаксис
В приведенном выше синтаксисе оператор INPUT показывает объявление переменных даты.
пример
Использование переменных в программе SAS
Перечисленные выше переменные используются в программе SAS, как показано в следующих примерах.
пример
Приведенный ниже код показывает, как три типа переменных объявляются и используются в программе SAS
Использование переменных
Нажмите на вкладку результатов после вышеуказанных шагов. Он показывает статистическую сводку трех выбранных переменных. В последнем столбце указано количество наблюдений (записей), использованных в анализе.
SAS — Струны
Объявление строковых переменных
Мы можем объявить строковые переменные и их значения, как показано ниже. В приведенном ниже коде мы объявляем две символьные переменные длиной 6 и 5. Ключевое слово LENGTH используется для объявления переменных без создания нескольких наблюдений.
Запустив приведенный выше код, мы получим вывод, который показывает имена переменных и их значения.
Строковые функции
Ниже приведены примеры некоторых функций SAS, которые часто используются.
SUBSTRN
Эта функция извлекает подстроку, используя начальную и конечную позиции. В случае отсутствия конечной позиции он извлекает все символы до конца строки.
Синтаксис
Ниже приведено описание используемых параметров:
пример
Запустив приведенный выше код, мы получаем вывод, который показывает результат функции substrn.
TRIMN
Эта функция удаляет завершающий пробел из строки.
Синтаксис
Ниже приведено описание используемых параметров:
Запустив приведенный выше код, мы получаем вывод, который показывает результат функции TRIMN.
SAS — Массивы
Массивы в SAS используются для хранения и извлечения ряда значений с использованием значения индекса. Индекс представляет местоположение в зарезервированной области памяти.
Синтаксис
В SAS массив объявляется с использованием следующего синтаксиса —
В приведенном выше синтаксисе —
ARRAY — это ключевое слово SAS для объявления массива.
ARRAY-NAME — это имя массива, которое следует тому же правилу, что и имена переменных.
SUBSCRIPT — это число значений, которые массив будет хранить.
($) является необязательным параметром, который используется только в том случае, если массив будет хранить символьные значения.
VARIABLE-LIST — необязательный список переменных, которые являются заполнителями для значений массива.
ARRAY-VALUES — это фактические значения, которые хранятся в массиве. Они могут быть объявлены здесь или могут быть прочитаны из файла или данных.
ARRAY — это ключевое слово SAS для объявления массива.
ARRAY-NAME — это имя массива, которое следует тому же правилу, что и имена переменных.
SUBSCRIPT — это число значений, которые массив будет хранить.
($) является необязательным параметром, который используется только в том случае, если массив будет хранить символьные значения.
VARIABLE-LIST — необязательный список переменных, которые являются заполнителями для значений массива.
ARRAY-VALUES — это фактические значения, которые хранятся в массиве. Они могут быть объявлены здесь или могут быть прочитаны из файла или данных.
Примеры декларации массива
Массивы могут быть объявлены разными способами с использованием приведенного выше синтаксиса. Ниже приведены примеры.
Доступ к значениям массива
Когда мы выполняем приведенный выше код, он дает следующий результат —
Использование оператора OF
Оператор OF используется при анализе данных формата Array для выполнения вычислений по всей строке массива. В приведенном ниже примере мы применяем сумму и среднее значение в каждой строке.
Когда мы выполняем приведенный выше код, он дает следующий результат —
Использование оператора IN
Доступ к значению в массиве также можно получить с помощью оператора IN, который проверяет наличие значения в строке массива. В приведенном ниже примере мы проверяем наличие цвета «Желтый» в данных. Это значение чувствительно к регистру.
Когда мы выполняем приведенный выше код, он дает следующий результат —
SAS — Числовые форматы
Синтаксис
Синтаксис для числовой информации —
Ниже приведено описание используемых параметров:
Varname — это имя переменной.
Formatname — это имя имени числового формата, примененного к переменной.
w — максимальное количество столбцов данных (включая цифры после десятичной точки и саму десятичную точку), разрешенных для хранения для переменной.
d — количество цифр справа от десятичной дроби.
Varname — это имя переменной.
Formatname — это имя имени числового формата, примененного к переменной.
w — максимальное количество столбцов данных (включая цифры после десятичной точки и саму десятичную точку), разрешенных для хранения для переменной.
d — количество цифр справа от десятичной дроби.
Чтение Числовых форматов
Ниже приведен список форматов, используемых для чтения данных в SAS.
Числовые форматы ввода
Максимальное количество столбцов «n» без десятичной точки.
Максимальное количество столбцов с n-кратными точками «n».
Максимальное число столбцов «n» с десятичными знаками «p», которое удаляет любые запятые или знаки доллара
Максимальное число столбцов «n» с десятичными знаками «p», которое удаляет любые запятые или знаки доллара
Максимальное количество столбцов «n» без десятичной точки.
Максимальное количество столбцов с n-кратными точками «n».
Максимальное число столбцов «n» с десятичными знаками «p», которое удаляет любые запятые или знаки доллара
Максимальное число столбцов «n» с десятичными знаками «p», которое удаляет любые запятые или знаки доллара
Отображение числовых форматов
Аналогично применению формата при чтении данных, ниже приведен список форматов, используемых для отображения данных в выходных данных программы SAS.
Числовые форматы вывода
Запишите максимальное количество цифр «n» без десятичной точки.
Запишите максимальное число столбцов «np» с десятичными точками «p».
Запишите максимальное число столбцов с «n» с p десятичными знаками, начальным знаком доллара и запятой на тысячном месте.
Запишите максимальное количество цифр «n» без десятичной точки.
Запишите максимальное число столбцов «np» с десятичными точками «p».
Запишите максимальное число столбцов с «n» с p десятичными знаками, начальным знаком доллара и запятой на тысячном месте.
Пожалуйста, обратите внимание —
Примеры
Ниже приведены примеры, иллюстрирующие приведенные выше сценарии.
Когда мы выполняем приведенный выше код, он дает следующий результат —
SAS — Операторы
Оператор в SAS — это символ, который используется в математическом, логическом или сравнительном выражении. Эти символы встроены в язык SAS, и многие операторы могут быть объединены в одном выражении для получения окончательного результата.
Ниже приведен список операторов категории SAS.
Мы рассмотрим каждый из них по одному. Операторы всегда используются с переменными, которые являются частью данных, которые анализируются программой SAS.
Арифметические Операторы
В приведенной ниже таблице описаны подробности арифметических операторов. Предположим, две переменные данных V1 и V2 со значениями 8 и 4 соответственно.
оператор
Описание
пример
+
прибавление
V1 + V2 = 12
—
Вычитание
V1-V2 = 4
*
умножение
V1, V2, * = 32
/
разделение
V1 / V2 = 2
**
Возведение
V1, V2, ** = 4096
пример
Запустив приведенный выше код, мы получим следующий вывод.
Логические Операторы
В приведенной ниже таблице описаны детали логических операторов. Эти операторы оценивают значение Истины выражения. Таким образом, результатом логических операторов всегда является 1 или 0. Предположим, что две переменные данных V1 и V2 со значениями 8 и 4 соответственно.
оператор
Описание
пример
&
Оператор AND Если оба значения данных имеют значение true, то результат равен 1, иначе он равен 0.
(V1> 2 и V2> 3) дает 0.
|
Оператор ИЛИ. Если какое-либо из значений данных оценивается как истинное, то результатом будет 1, иначе 0.
(V1> 9 и V2> 3) равно 1.
НЕ оператор. Результат оператора NOT в форме выражения, значение которого равно FALSE или отсутствует, равен 1, в противном случае он равен 0.
НЕ (V1> 3) равно 1.
пример
Запустив приведенный выше код, мы получим следующий вывод.
Операторы сравнения
В приведенной ниже таблице описаны подробности операторов сравнения. Эти операторы сравнивают значения переменных, и результатом является значение истинности, представленное 1 для ИСТИНЫ и 0 для Ложного. Предположим, две переменные данных V1 и V2 со значениями 8 и 4 соответственно.
оператор
Описание
пример
знак равно
РАВНЫЙ Оператор. Если оба значения данных равны, то результат равен 1, иначе он равен 0.
(V1 = 8) дает 1.
^ =
НЕ РАВНЫЙ оператор. Если оба значения данных неравны, то результат равен 1, иначе это 0.
(V1 ^ = V2) дает 1.
Меньше чем оператор.
(V2
МЕНЬШЕ, ЧЕМ ИЛИ РАВНОЕ Оператору.
(V2
>
БОЛЬШЕ, ЧЕМ Оператор.
(V2> V1) дает 1.
> =
БОЛЬШЕ, ЧЕМ или РАВНО ДЛЯ Оператора.
(V2> = V1) дает 0.
В
Оператор IN. Если значение переменной равно любому из значений в данном списке значений, то оно возвращает 1, иначе оно возвращает 0.
V1 в (5,7,9,8) дает 1.
пример
Запустив приведенный выше код, мы получим следующий вывод.
Минимальные / максимальные операторы
В приведенной ниже таблице описаны детали операторов Minimum / Maximum. Эти операторы сравнивают значения переменных в строке, и возвращается минимальное или максимальное значение из списка значений в строках.
оператор
Описание
пример
MIN
Оператор МИН. Возвращает минимальное значение из списка значений в строке.
MIN (45,2,11,6,15,41) дает 11,6
МАКСИМУМ
МАКС Оператор. Возвращает максимальное значение из списка значений в строке.
Макс (45,2,11,6,15,41) дает 45,2
пример
Запустив приведенный выше код, мы получим следующий вывод.
Оператор конкатенации
В приведенной ниже таблице описаны подробности оператора конкатенации. Этот оператор объединяет два или более строковых значения. Возвращается однозначное значение
оператор
Описание
пример
||
Оператор сцепления. Возвращает объединение двух или более значений.
‘Hello’ ||» Мир ‘дает Hello World
пример
Запустив приведенный выше код, мы получим следующий вывод.
Приоритет операторов
Приоритет оператора указывает порядок вычисления нескольких операторов, присутствующих в сложном выражении. В приведенной ниже таблице описан порядок приоритета в группе операторов.
группа
порядок
Символы
Группа I
Справа налево
** + — НЕ МИН МАКС
Группа II
Слева направо
* /
Группа III
Слева направо
+ —
Группа IV
Слева направо
||
Группа V
Слева направо
=>
SAS — Петли
Вы можете столкнуться с ситуациями, когда блок кода должен выполняться несколько раз. В общем случае операторы выполняются последовательно: первый оператор в функции выполняется первым, затем второй и так далее. Но когда вы хотите, чтобы один и тот же набор операторов выполнялся снова и снова, нам нужна помощь Loops.
Схема потока
Ниже приведены типы циклов DO в SAS.
Sr.No.
Тип и описание петли
1
DO индекс.
Цикл продолжается от начального значения до конечного значения индексной переменной.
Цикл продолжается до тех пор, пока условие не станет ложным.
Цикл продолжается до тех пор, пока условие UNTIL не станет True.
Цикл продолжается от начального значения до конечного значения индексной переменной.
Цикл продолжается до тех пор, пока условие не станет ложным.
Цикл продолжается до тех пор, пока условие UNTIL не станет True.
SAS — принятие решений
Ниже приводится общая форма типичной структуры принятия решений, встречающейся в большинстве языков программирования.
SAS предоставляет следующие типы заявлений о принятии решений. Нажмите на следующие ссылки, чтобы проверить их детали.
Sr.No.
Тип заявления и описание
1
Если заявление.
Оператор if состоит из условия. Если условие истинно, то выбираются конкретные данные.
Оператор if, за которым следует оператор else, который выполняется, когда логическое условие ложно.
Оператор if, за которым следует оператор else, за которым снова следует другая пара операторов IF-THEN.
Оператор if состоит из условия, которое при истечении удаляет конкретные данные из наблюдений.
Оператор if состоит из условия. Если условие истинно, то выбираются конкретные данные.
Оператор if, за которым следует оператор else, который выполняется, когда логическое условие ложно.
Оператор if, за которым следует оператор else, за которым снова следует другая пара операторов IF-THEN.
Оператор if состоит из условия, которое при истечении удаляет конкретные данные из наблюдений.
SAS — Функции
SAS имеет широкий спектр встроенных функций, которые помогают в анализе и обработке данных. Эти функции используются как часть операторов DATA. Они принимают переменные данных в качестве аргументов и возвращают результат, который сохраняется в другой переменной. В зависимости от типа функции количество аргументов, которые она принимает, может варьироваться. Некоторые функции принимают нулевые аргументы, в то время как другие принимают фиксированное число переменных. Ниже приведен список типов функций, которые предоставляет SAS.
Синтаксис
Общий синтаксис использования функции в SAS приведен ниже.
Здесь аргумент может быть константой, переменной, выражением или другой функцией.
Категории функций
В зависимости от их использования функции в SAS классифицируются следующим образом.
Математические функции
Эти функции используются для применения некоторых математических вычислений к значениям переменных.
Примеры
В приведенной ниже программе SAS показано использование некоторых важных математических функций.
Когда приведенный выше код выполняется, мы получаем следующий вывод:
Функции даты и времени
Эти функции используются для обработки значений даты и времени.
Примеры
В приведенной ниже программе SAS показано использование функций даты и времени.
Когда приведенный выше код выполняется, мы получаем следующий вывод:
Функции персонажа
Это функции, используемые для обработки символьных или текстовых значений.
Примеры
В приведенной ниже программе SAS показано использование символьных функций.
Когда приведенный выше код выполняется, мы получаем следующий вывод:
Функции усечения
Эти функции используются для усечения числовых значений.
Примеры
В приведенной ниже программе SAS показано использование функций усечения.
Когда приведенный выше код выполняется, мы получаем следующий вывод:
Разные функции
Давайте теперь разберемся с различными функциями SAS на нескольких примерах.
Примеры
В приведенной ниже программе SAS показано использование различных функций.
Когда приведенный выше код выполняется, мы получаем следующий вывод:
SAS — Методы ввода
Методы ввода используются для чтения необработанных данных. Необработанные данные могут быть из внешнего источника или из потоковых данных. Оператор ввода создает переменную с именем, которое вы назначаете каждому полю. Таким образом, вы должны создать переменную в операторе ввода. Эта же переменная будет показана в выходных данных набора данных SAS. Ниже приведены различные методы ввода, доступные в SAS.
Детали каждого метода ввода описаны ниже.
Метод ввода списка
В этом методе переменные перечислены с типами данных. Необработанные данные тщательно анализируются, чтобы порядок объявленных переменных соответствовал данным. Разделитель (обычно пробел) должен быть одинаковым между любой парой соседних столбцов. Любые недостающие данные вызовут проблемы в выводе, поскольку результат будет неправильным.
пример
Следующий код и выходные данные показывают использование метода ввода списка.
Запустив код bove, мы получим следующий вывод.
Именованный метод ввода
В этом методе переменные перечислены с типами данных. Необработанные данные модифицируются, чтобы имена переменных объявлялись перед соответствующими данными. Разделитель (обычно пробел) должен быть одинаковым между любой парой соседних столбцов.
пример
Следующий код и выходные данные показывают использование именованного метода ввода.
Запустив код bove, мы получим следующий вывод.
Метод ввода столбца
В этом методе переменные перечисляются с типами данных и шириной столбцов, которые определяют значение одного столбца данных. Например, если имя сотрудника содержит максимум 9 символов, а имя каждого сотрудника начинается с 10-го столбца, то ширина столбца для переменной имени сотрудника будет 10-19.
пример
Следующий код показывает использование метода ввода столбцов.
Когда мы выполняем приведенный выше код, он дает следующий результат —
Форматированный метод ввода
В этом методе переменные считываются из фиксированной начальной точки, пока не встретится пробел. Поскольку каждая переменная имеет фиксированную начальную точку, число столбцов между любой парой переменных становится шириной первой переменной. Символ ‘@n’ используется для указания начальной позиции столбца переменной в качестве n-го столбца.
пример
Следующий код показывает использование форматированного метода ввода
Когда мы выполняем приведенный выше код, он дает следующий результат —
SAS — Макросы
SAS имеет мощную функцию программирования под названием Macros, которая позволяет нам избегать повторяющихся участков кода и использовать их снова и снова, когда это необходимо. Это также помогает создавать в коде динамические переменные, которые могут принимать разные значения для разных экземпляров прогона одного и того же кода. Макросы также могут быть объявлены для блоков кода, которые будут многократно использоваться аналогично макропеременным. Мы увидим оба из них в следующих примерах.
Макропеременные
Это переменные, которые содержат значение, которое будет снова и снова использоваться программой SAS. Они объявляются в начале программы SAS и вызываются позже в основной части программы. Они могут быть глобальными или локальными по объему.
Глобальная макро-переменная
Их называют глобальными макропеременными, потому что к ним может обращаться любая программа SAS, доступная в среде SAS. Как правило, это системные переменные, к которым обращаются несколько программ. Общий пример — системная дата.
пример
Ниже приведен пример переменной SAS с именем SYSDATE, которая представляет системную дату. Рассмотрим сценарий для печати системной даты в заголовке отчета SAS каждый день, когда отчет генерируется. Заголовок покажет текущую дату и день без кодирования каких-либо значений для них. Мы используем встроенный набор данных SAS под названием CARS, доступный в библиотеке SASHELP.
Когда приведенный выше код выполняется, мы получаем следующий вывод.
Локальная переменная макроса
Эти переменные могут быть доступны для программ SAS, в которых они объявлены как часть программы. Они, как правило, используются для предоставления разных varaibels одним и тем же операторам SAS, чтобы они могли обрабатывать разные наблюдения набора данных.
Синтаксис
Локальные переменные имеют декальтарный синтаксис.
Здесь поле «Значение» может принимать любое числовое, текстовое значение или значение даты, как того требует программа. Имя макрокоманды — это любая допустимая переменная SAS.
пример
Когда приведенный выше код выполняется, мы получаем тот же вывод, что и предыдущая программа. Но давайте изменим имя типа на «Wagon» и запустим ту же программу. Мы получим следующий результат.
Макро Программы
Макрос — это группа операторов SAS, на которые ссылается имя и которые можно использовать в программе где угодно, используя это имя. Он начинается с оператора% MACRO и заканчивается оператором% MEND.
Синтаксис
Локальные переменные объявлены с синтаксисом ниже.
пример
Приведенная ниже программа декальзирует группу STAT-сетей SAT под макросом с именем ‘show_result’; Этот макрос вызывается другими операторами SAS.
Когда приведенный выше код выполняется, мы получаем следующий вывод.
Обычно используемые макросы
SAS имеет много операторов MACRO, которые встроены в язык программирования SAS. Они используются другими программами SAS без явного объявления их. Общими примерами являются: завершение программы при выполнении какого-либо условия или запись значения переменной времени выполнения в журнал программы. Ниже приведены некоторые примеры.
Макро% PUT
Этот оператор макроса записывает текстовую или макропеременную информацию в журнал SAS. В приведенном ниже примере значение переменной «сегодня» записывается в журнал программы.
Когда приведенный выше код выполняется, мы получаем следующий вывод.
Макро% ВОЗВРАТ
Выполнение этого макроса вызывает нормальное завершение текущего выполняющегося макроса, когда определенное условие оценивается как истинное. В приведенном ниже примере, когда значение переменной «val» становится равным 10, макрос завершается, в противном случае он продолжается.
Когда приведенный выше код выполняется, мы получаем следующий вывод.
Макро% КОНЕЦ
Это макроопределение содержит цикл % DO% WHILE, который заканчивается, как требуется, оператором% END. В приведенном ниже примере макрос с именем test принимает пользовательский ввод и запускает цикл DO, используя это входное значение. Завершение цикла DO достигается с помощью оператора% end, в то время как конец макроса достигается с помощью оператора% mend.
Когда приведенный выше код выполняется, мы получаем следующий вывод.
SAS — дата и время
Когда SAS читает данные из источника, он преобразует прочитанные данные в определенный формат даты, как указано в формате даты. Переменная для хранения значения даты объявляется с необходимой информацией. Дата вывода отображается с использованием форматов выходных данных.
SAS Date Informat
Исходные данные могут быть прочитаны надлежащим образом с использованием определенных данных даты, как показано ниже. Цифра в конце информата указывает минимальную ширину строки даты, которая должна быть полностью прочитана с использованием информата. Меньшая ширина даст неверный результат. в SAS V9 существует общий формат даты anydtdte15. который может обрабатывать любой ввод даты.
Дата ввода
Ширина даты
Informat
03/11/2014
10
mmddyy10.
03/11/14
8
mmddyy8.
11 декабря 2012 г.
20
worddate20.
14mar2011
9
date9.
14-мар-2011
11
date11.
14-мар-2011
15
anydtdte15.
пример
Код ниже показывает чтение различных форматов даты. Обратите внимание, что все выходные значения являются просто числами, так как мы не применили никакого оператора формата к выходным значениям.
Когда приведенный выше код выполняется, мы получаем следующий вывод.
Формат вывода даты SAS
Даты после прочтения могут быть преобразованы в другой формат в соответствии с требованиями дисплея. Это достигается с помощью оператора формата для типов даты. Они принимают те же форматы, что и информаторы.
пример
В приведенном ниже примере дата читается в одном формате, но отображается в другом формате.
Когда приведенный выше код выполняется, мы получаем следующий вывод.
SAS — чтение необработанных данных
SAS может читать данные из различных источников, которые включают в себя множество форматов файлов. Форматы файлов, используемые в среде SAS, обсуждаются ниже.
Чтение ASCII (текстового) набора данных
Это файлы, которые содержат данные в текстовом формате. Данные обычно разделяются пробелом, но также могут быть разные типы разделителей, с которыми может работать SAS. Давайте рассмотрим файл ASCII, содержащий данные о сотрудниках. Мы читаем этот файл, используя инструкцию Infile, доступную в SAS.
пример
В приведенном ниже примере мы читаем файл данных с именем emp_data.txt из локальной среды.
Когда приведенный выше код выполняется, мы получаем следующий вывод.
Чтение данных с разделителями
пример
В приведенном ниже примере мы читаем файл данных с именем emp.csv из локальной среды.
Когда приведенный выше код выполняется, мы получаем следующий вывод.
Чтение данных Excel
SAS может напрямую читать файл Excel с помощью средства импорта. Как видно из главы «Наборы данных SAS», он может обрабатывать самые разные типы файлов, включая MS Excel. Предполагая, что файл emp.xls доступен локально в среде SAS.
пример
Приведенный выше код считывает данные из файла Excel и выдает тот же вывод, что и выше, для двух типов файлов.
Чтение Иерархических Файлов
В этих файлах данные представлены в иерархическом формате. Для данного наблюдения есть запись заголовка, ниже которой упоминается много подробных записей. Количество записей подробностей может варьироваться от одного наблюдения к другому. Ниже приведена иллюстрация иерархического файла.
В приведенном ниже файле перечислены данные каждого сотрудника в каждом отделе. Первая запись — это запись заголовка с указанием отдела, а следующая запись, несколько записей, начинающихся с DTLS, — запись сведений.
пример
Чтобы прочитать иерархический файл, мы используем приведенный ниже код, в котором мы идентифицируем запись заголовка с помощью предложения IF и используем цикл do для обработки записи сведений.
Когда приведенный выше код выполняется, мы получаем следующий вывод.
SAS — запись наборов данных
Подобно чтению наборов данных, SAS может записывать наборы данных в разных форматах. Он может записывать данные из файлов SAS в обычный текстовый файл. Эти файлы могут быть прочитаны другими программами. SAS использует PROC EXPORT для записи наборов данных.
ПРОЦ ЭКСПОРТ
Это встроенная процедура SAS, используемая для экспорта наборов данных SAS для записи данных в файлы различных форматов.
Синтаксис
Основной синтаксис для написания процедуры в SAS —
Ниже приведено описание используемых параметров:
Параметры набора данных SAS используются для указания подмножества экспортируемых столбцов.
filename — это имя файла, в который записываются данные.
идентификатор используется для упоминания разделителя, который будет записан в файл.
Опция LABEL используется для указания имени переменных, записанных в файл.
Параметры набора данных SAS используются для указания подмножества экспортируемых столбцов.
filename — это имя файла, в который записываются данные.
идентификатор используется для упоминания разделителя, который будет записан в файл.
Опция LABEL используется для указания имени переменных, записанных в файл.
пример
Мы будем использовать набор данных SAS с именами автомобилей, доступный в библиотеке SASHELP. Мы экспортируем его как текстовый файл с разделителями пробелами с кодом, как показано в следующей программе.
Выполнив приведенный выше код, мы можем увидеть вывод в виде текстового файла и щелкнуть по нему правой кнопкой мыши, чтобы увидеть его содержимое, как показано ниже.
Написание файла CSV
Чтобы записать файл с разделителями-запятыми, мы можем использовать опцию dlm со значением «csv». Следующий код записывает файл car_data.csv.
Выполнив приведенный выше код, мы получим следующий вывод.
Написание файла с разделителями табуляции
Чтобы написать файл с разделителями табуляции, мы можем использовать опцию dlm со значением «tab». Следующий код записывает файл car_tab.txt.
Данные также могут быть записаны в виде HTML-файла, который мы увидим в главе «Система доставки вывода».
SAS — объединенные наборы данных
В идеале все объединяющие наборы данных имеют одинаковые переменные, но в случае, если у них разное количество переменных, в результате появляются все переменные с пропущенными значениями для меньшего набора данных.
Синтаксис
Основной синтаксис для оператора SET в SAS —
Ниже приведено описание используемых параметров:
data-set1, data-set2 — это имена наборов данных, записанные одно за другим.
data-set1, data-set2 — это имена наборов данных, записанные одно за другим.
пример
Рассмотрим данные о сотрудниках организации, которые доступны в двух разных наборах данных: один для ИТ-отдела, а другой для не-ИТ-отдела. Чтобы получить полную информацию обо всех сотрудниках, мы объединяем оба набора данных с помощью инструкции SET, показанной ниже.
Когда приведенный выше код выполняется, мы получаем следующий вывод.
Сценарии
Когда у нас много вариаций в наборах данных для конкатенации, результат переменных может отличаться, но общее количество наблюдений в объединенном наборе данных всегда является суммой наблюдений в каждом наборе данных. Ниже мы рассмотрим множество сценариев этого варианта.
Разное количество переменных
Если один из исходных наборов данных имеет большее количество переменных, чем другой, тогда наборы данных по-прежнему объединяются, но в меньшем наборе данных эти переменные отображаются как отсутствующие.
пример
В приведенном ниже примере первый набор данных имеет дополнительную переменную с именем DOJ. В результате значение DOJ для второго набора данных будет отображаться как отсутствующее.
Когда приведенный выше код выполняется, мы получаем следующий вывод.
Другое имя переменной
В этом сценарии наборы данных имеют одинаковое количество переменных, но имя переменной отличается между ними. В этом случае нормальная конкатенация произведет все переменные в наборе результатов и даст недостающие результаты для двух переменных, которые отличаются. Хотя мы не можем изменить имя переменной в исходных наборах данных, мы можем применить функцию RENAME в объединенном наборе данных, который мы создаем. Это даст тот же результат, что и при обычной конкатенации, но, конечно, с одним новым именем переменной вместо двух разных имен переменных, присутствующих в исходном наборе данных.
пример
В приведенном ниже примере набора данных ITDEPT имеет имя переменной ename, тогда как набор данных NON_ITDEPT имеет имя переменной empname. Но обе эти переменные представляют один и тот же тип (символ). Мы применяем функцию RENAME в операторе SET, как показано ниже.
Когда приведенный выше код выполняется, мы получаем следующий вывод.
Различные переменные длины
Если длины переменных в двух наборах данных отличаются, то объединенный набор данных будет иметь значения, в которых некоторые данные усекаются для переменной с меньшей длиной. Это происходит, если первый набор данных имеет меньшую длину. Чтобы решить эту проблему, мы применяем большую длину к обоим наборам данных, как показано ниже.
пример
В приведенном ниже примере переменная ename имеет длину 5 в первом наборе данных и 7 во втором. При конкатенации мы применяем оператор LENGTH в конкатенированном наборе данных, чтобы установить длину ename равной 7.
Когда приведенный выше код выполняется, мы получаем следующий вывод.
SAS — объединение наборов данных
Ниже приведены две предпосылки для объединения наборов данных:
Синтаксис
Основной синтаксис для операторов MERGE и BY в SAS —
Ниже приведено описание используемых параметров:
Data-set1, Data-set2 — это имена наборов данных, записанные один за другим.
Общая переменная — это переменная, в зависимости от значений которой будут объединены наборы данных.
Data-set1, Data-set2 — это имена наборов данных, записанные один за другим.
Общая переменная — это переменная, в зависимости от значений которой будут объединены наборы данных.
Объединение данных
Давайте разберемся со слиянием данных на примере.
пример
Рассмотрим два набора данных SAS, один из которых содержит идентификатор сотрудника с именем и зарплатой, а другой — идентификатор сотрудника с идентификатором сотрудника и отделом. В этом случае, чтобы получить полную информацию для каждого сотрудника, мы можем объединить эти два набора данных. Окончательный набор данных будет по-прежнему иметь одно наблюдение на сотрудника, но он будет содержать как зарплату, так и переменные отдела.
Вышеуказанный результат достигается с помощью следующего кода, в котором общая переменная (ID) используется в операторе BY. Обратите внимание, что наблюдения в обоих наборах данных уже отсортированы в столбце идентификаторов.
Отсутствующие значения в соответствующей колонке
Могут быть случаи, когда некоторые значения общей переменной не будут совпадать между наборами данных. В таких случаях наборы данных все еще объединяются, но в результате выдаются пропущенные значения.
пример
Рассмотрим случай, когда идентификатор 3 сотрудника отсутствует в наборе данных о заработной плате, а идентификатор 6 сотрудника отсутствует в наборе данных DEPT. Когда приведенный выше код применяется, мы получаем следующий результат.
Слияние только матчей
пример
После выполнения вышеуказанной программы SAS с измененной частью, полученной выше, мы получаем следующий вывод.
SAS — Поднабор данных
Кроме того, полученные в результате операции поднабора данные хранятся в новом наборе данных, который можно использовать для дальнейшего анализа. Поднабор в основном используется для анализа части набора данных без использования тех переменных или наблюдений, которые могут не иметь отношения к анализу.
Подмножество переменных
В этом методе мы извлекаем только несколько переменных из всего набора данных.
Синтаксис
Основной синтаксис для поднабора переменных в SAS —
Ниже приведено описание используемых параметров:
var1 и var2 — это имена переменных из набора данных, которые необходимо сохранить или удалить.
var1 и var2 — это имена переменных из набора данных, которые необходимо сохранить или удалить.
пример
Рассмотрим приведенный ниже набор данных SAS, содержащий сведения о сотрудниках организации. Если мы заинтересованы только в получении значений Name и Department из набора данных, мы можем использовать приведенный ниже код.
Когда приведенный выше код выполняется, мы получаем следующий вывод.
Тот же результат можно получить, отбросив переменные, которые не требуются. Код ниже иллюстрирует это.
Подмножество наблюдений
В этом методе мы извлекаем только несколько наблюдений из всего набора данных.
Синтаксис
Мы используем PROC FREQ, который отслеживает наблюдения, выбранные для нового набора данных.
Синтаксис для поднаборов наблюдений —
Ниже приведено описание используемых параметров:
Var — это имя переменной, в зависимости от значения которой наблюдения будут удаляться с использованием указанного условия.
Var — это имя переменной, в зависимости от значения которой наблюдения будут удаляться с использованием указанного условия.
пример
Рассмотрим приведенный ниже набор данных SAS, содержащий сведения о сотрудниках организации. Если мы заинтересованы только в получении данных для сотрудников с зарплатой более 700, то мы используем приведенный ниже код.
Когда приведенный выше код выполняется, мы получаем следующий вывод.
SAS — формат данных
Иногда мы предпочитаем отображать проанализированные данные в формате, который отличается от формата, в котором они уже присутствуют в наборе данных. Например, мы хотим добавить знак доллара и два знака после запятой в переменную, которая имеет информацию о цене. Или мы можем захотеть показать текстовую переменную, все в верхнем регистре. Мы можем использовать FORMAT для применения встроенных форматов SAS, а PROC FORMAT — для применения пользовательских форматов. Также один формат может быть применен к нескольким переменным.
Синтаксис
Основной синтаксис для применения встроенных форматов SAS:
Ниже приведено описание используемых параметров:
имя переменной — это имя переменной, используемой в наборе данных.
имя формата — это формат данных, который будет применен к переменной.
имя переменной — это имя переменной, используемой в наборе данных.
имя формата — это формат данных, который будет применен к переменной.
пример
Когда приведенный выше код выполняется, мы получаем следующий вывод.
Использование PROC FORMAT
Мы также можем использовать PROC FORMAT для форматирования данных. В приведенном ниже примере мы присваиваем новые значения переменной DEPT, добавляя название отдела.
Когда приведенный выше код выполняется, мы получаем следующий вывод.
SAS — SQL
SAS предлагает обширную поддержку большинству популярных реляционных баз данных, используя SQL-запросы внутри программ SAS. Большая часть синтаксиса ANSI SQL поддерживается. Процедура PROC SQL используется для обработки операторов SQL. Эта процедура может не только вернуть результат запроса SQL, но и создать таблицы и переменные SAS. Пример всех этих сценариев описан ниже.
Синтаксис
Основной синтаксис для использования PROC SQL в SAS —
Ниже приведено описание используемых параметров:
SQL-запрос записывается под оператором PROC SQL, за которым следует оператор QUIT.
SQL-запрос записывается под оператором PROC SQL, за которым следует оператор QUIT.
Ниже мы увидим, как эту процедуру SAS можно использовать для операций CRUD (создание, чтение, обновление и удаление) в SQL.
Операция создания SQL
Используя SQL, мы можем создать новый набор данных из необработанных данных. В приведенном ниже примере сначала мы объявляем набор данных с именем TEMP, содержащий необработанные данные. Затем мы пишем SQL-запрос для создания таблицы из переменных этого набора данных.
Когда приведенный выше код выполняется, мы получаем следующий результат —
Операция чтения SQL
Операция чтения в SQL включает в себя написание запросов SQL SELECT для чтения данных из таблиц. В приведенной ниже программе запрашивается набор данных SAS с именем CARS, доступный в библиотеке SASHELP. Запрос выбирает некоторые из столбцов набора данных.
Когда приведенный выше код выполняется, мы получаем следующий результат —
SQL SELECT с предложением WHERE
Когда приведенный выше код выполняется, мы получаем следующий результат —
Операция SQL UPDATE
Мы можем обновить таблицу SAS с помощью оператора SQL Update. Ниже мы сначала создаем новую таблицу с именем EMPLOYEES2, а затем обновляем ее с помощью оператора SQL UPDATE.
Когда приведенный выше код выполняется, мы получаем следующий результат —
Операция SQL DELETE
Операция удаления в SQL включает удаление определенных значений из таблицы с помощью оператора SQL DELETE. Мы продолжаем использовать данные из приведенного выше примера и удаляем строки из таблицы, в которой зарплата сотрудников превышает 900.
Когда приведенный выше код выполняется, мы получаем следующий результат —
SAS — ODS
Вывод программы SAS можно преобразовать в более удобные для пользователя формы, такие как .html или PDF. Это делается с помощью оператора ODS, доступного в SAS. ODS обозначает систему доставки продукции. Он в основном используется для форматирования выходных данных программы SAS в красивые отчеты, которые хорошо смотреть и понимать. Это также помогает делиться выводом с другими платформами и программными продуктами. Он также может объединять результаты нескольких операторов PROC в одном файле.
Синтаксис
Основной синтаксис для использования оператора ODS в SAS —
Ниже приведено описание используемых параметров:
PATH представляет оператор, используемый в случае вывода HTML. В других типах вывода мы включаем путь в имя файла.
Стиль представляет собой один из встроенных стилей, доступных в среде SAS.
PATH представляет оператор, используемый в случае вывода HTML. В других типах вывода мы включаем путь в имя файла.
Стиль представляет собой один из встроенных стилей, доступных в среде SAS.
Создание вывода HTML
Мы создаем вывод HTML, используя оператор ODS HTML. В приведенном ниже примере мы создаем HTML-файл по нашему желаемому пути. Мы применяем стиль, доступный в библиотеке стилей. Мы можем увидеть выходной файл по указанному пути и загрузить его для сохранения в среде, отличной от среды SAS. Обратите внимание, что у нас есть два SQL-оператора proc, и оба их вывода записываются в один файл.
Когда приведенный выше код выполняется, мы получаем следующий результат —
Создание вывода PDF
В приведенном ниже примере мы создаем файл PDF по нашему желаемому пути. Мы применяем стиль, доступный в библиотеке стилей. Мы можем увидеть выходной файл по указанному пути и загрузить его для сохранения в среде, отличной от среды SAS. Обратите внимание, что у нас есть два SQL-оператора proc, и оба их вывода записываются в один файл.
Когда приведенный выше код выполняется, мы получаем следующий результат —
Создание TRF (Word) вывода
В приведенном ниже примере мы создаем файл RTF по нашему желаемому пути. Мы применяем стиль, доступный в библиотеке стилей. Мы можем увидеть выходной файл по указанному пути и загрузить его для сохранения в среде, отличной от среды SAS. Обратите внимание, что у нас есть два SQL-оператора proc, и оба их вывода записываются в один файл.
Когда приведенный выше код выполняется, мы получаем следующий результат —
SAS — Симуляторы
Моделирование — это вычислительная техника, которая использует повторяющиеся вычисления для множества различных случайных выборок для оценки статистической величины. Используя SAS, мы можем моделировать сложные данные, которые имеют определенные статистические свойства в реальной системе. Мы используем программное обеспечение для построения модели системы и численно генерируем данные, которые можно использовать для лучшего понимания поведения реальной системы. Часть искусства проектирования компьютерной имитационной модели заключается в определении того, какие аспекты реальной системы необходимо включить в модель, чтобы данные, сгенерированные моделью, могли использоваться для принятия эффективных решений. Из-за этой сложности SAS имеет специальный программный компонент для моделирования.
Различные типы статистических распределений, к которым может применяться моделирование SAS, перечислены ниже.
SAS — гистограммы
Гистограмма — это графическое отображение данных с использованием столбцов разной высоты. Он группирует различные числа в наборе данных во множество диапазонов. Он также представляет оценку вероятности распределения непрерывной переменной. В SAS PROC UNIVARIATE используется для создания гистограмм с указанными ниже параметрами.
Синтаксис
Основной синтаксис для создания гистограммы в SAS —
Ниже приведено описание используемых параметров:
DATASET — это имя используемого набора данных.
переменные — это значения, используемые для построения гистограммы.
DATASET — это имя используемого набора данных.
переменные — это значения, используемые для построения гистограммы.
Простая гистограмма
Простая гистограмма создается путем указания имени переменной и диапазона, который следует учитывать для группировки значений.
пример
В приведенном ниже примере мы рассматриваем минимальное и максимальное значения переменной лошадиных сил и принимаем диапазон 50. Таким образом, значения образуют группу с шагом 50.
Когда мы выполняем приведенный выше код, мы получаем следующий вывод:
Гистограмма с кривой
Мы можем вписать некоторые кривые распределения в гистограмму, используя дополнительные параметры.
пример
В приведенном ниже примере мы подгоняем кривую распределения со значениями среднего и стандартного отклонения, упомянутыми как EST. Эта опция использует и оценку параметров.
Когда мы выполняем приведенный выше код, мы получаем следующий вывод:
SAS — гистограммы
Гистограмма представляет данные в прямоугольных столбцах, длина столбца которых пропорциональна значению переменной. SAS использует процедуру PROC SGPLOT для создания гистограмм. Мы можем нарисовать как простые, так и сложенные столбцы на гистограмме. В гистограмме каждому из баров могут быть даны разные цвета.
Синтаксис
Основной синтаксис для создания гистограммы в SAS —
Ниже приведено описание используемых параметров:
DATASET — это имя используемого набора данных.
переменные — это значения, используемые для построения гистограммы.
DATASET — это имя используемого набора данных.
переменные — это значения, используемые для построения гистограммы.
Простая гистограмма
Простая гистограмма — это гистограмма, в которой переменная из набора данных представлена в виде столбцов.
пример
Приведенный ниже скрипт создаст гистограмму, представляющую длину автомобилей в виде баров.
Когда мы выполняем приведенный выше код, мы получаем следующий вывод:
Гистограмма с накоплением
Столбчатая диаграмма с накоплением — это столбчатая диаграмма, в которой переменная из набора данных рассчитывается относительно другой переменной.
пример
Приведенный ниже скрипт создаст гистограмму с накоплением, где длина автомобилей рассчитывается для каждого типа автомобилей. Мы используем параметр группы, чтобы указать вторую переменную.
Когда мы выполняем приведенный выше код, мы получаем следующий вывод:
Кластерная гистограмма
Кластерная гистограмма создается, чтобы показать, как значения переменной распространяются по культуре.
пример
Когда мы выполняем приведенный выше код, мы получаем следующий вывод:
SAS — круговые диаграммы
Круговая диаграмма — это представление значений в виде кусочков круга разных цветов. Срезы помечены, и числа, соответствующие каждому срезу, также представлены на диаграмме.
В SAS круговая диаграмма создается с использованием PROC TEMPLATE, который принимает параметры для управления процентами, метками, цветом, заголовком и т. Д.
Синтаксис
Основной синтаксис для создания круговой диаграммы в SAS —
Ниже приведено описание используемых параметров:
Переменная — это значение, для которого мы создаем круговую диаграмму.
Переменная — это значение, для которого мы создаем круговую диаграмму.
Простая круговая диаграмма
На этой круговой диаграмме мы берем одну переменную из набора данных. Круговая диаграмма создается со значением срезов, представляющих долю числа переменных по отношению к общему значению переменной.
пример
В приведенном ниже примере каждый срез представляет собой долю типа автомобиля от общего количества автомобилей.
Когда мы выполняем приведенный выше код, мы получаем следующий вывод:
Круговая диаграмма с метками данных
На этой круговой диаграмме мы представляем как дробное значение, так и процентное значение для каждого среза. Мы также меняем расположение метки, чтобы она находилась внутри графика. Стиль внешнего вида диаграммы изменяется с помощью опции DATASKIN. Он использует один из встроенных стилей, доступных в среде SAS.
пример
Когда мы выполняем приведенный выше код, мы получаем следующий вывод:
Круговая диаграмма
На этой круговой диаграмме значение переменной, представленной на графике, сгруппировано по отношению к другой переменной из того же набора данных. Каждая группа становится одним кругом, и на диаграмме столько концентрических кругов, сколько есть доступных групп.
пример
В приведенном ниже примере мы группируем диаграмму по переменной с именем «Make». Поскольку доступны два значения («Audi» и «BMW»), мы получаем два концентрических круга, каждый из которых представляет срезы типов автомобилей своей марки.
Когда мы выполняем приведенный выше код, мы получаем следующий вывод:
SAS — точечные диаграммы
Диаграмма рассеяния — это тип графика, который использует значения двух переменных, построенных на декартовой плоскости. Обычно используется для выяснения связи между двумя переменными. В SAS мы используем PROC SGSCATTER для создания графиков рассеяния.
Обратите внимание, что мы создаем набор данных с именем CARS1 в первом примере и используем тот же набор данных для всех последующих наборов данных. Этот набор данных остается в рабочей библиотеке до конца сеанса SAS.
Синтаксис
Основной синтаксис для создания точечной диаграммы в SAS —
Ниже приведено описание используемых параметров:
DATASET — это имя набора данных.
VARIABLE — это переменная, используемая из набора данных.
DATASET — это имя набора данных.
VARIABLE — это переменная, используемая из набора данных.
Простое Scatterplot
В простой диаграмме рассеяния мы выбираем две переменные из набора данных и группируем их по третьей переменной. Мы также можем пометить данные. Результат показывает, как две переменные разбросаны в декартовой плоскости.
пример
Когда мы выполняем приведенный выше код, мы получаем следующий вывод:
Scatterplot с предсказанием
мы можем использовать параметр оценки, чтобы предсказать степень корреляции между ними, нарисовав эллипс вокруг значений. Мы используем дополнительные параметры в процедуре, чтобы нарисовать эллипс, как показано ниже.
пример
Когда мы выполняем приведенный выше код, мы получаем следующий вывод:
Scatter Matrix
Мы также можем получить диаграмму рассеяния, включающую более двух переменных, сгруппировав их в пары. В приведенном ниже примере мы рассмотрим три переменные и нарисуем матрицу графика рассеяния. Получаем 3 пары полученной матрицы.
пример
Когда мы выполняем приведенный выше код, мы получаем следующий вывод:
SAS — Коробочные участки
Обратите внимание, что мы создаем набор данных с именем CARS1 в первом примере и используем тот же набор данных для всех последующих наборов данных. Этот набор данных остается в рабочей библиотеке до конца сеанса SAS.
Синтаксис
Основной синтаксис для создания боксплота в SAS —
Ниже приведено описание используемых параметров:
DATASET — это имя используемого набора данных.
VARIABLE — это значение, используемое для построения Boxplot.
DATASET — это имя используемого набора данных.
VARIABLE — это значение, используемое для построения Boxplot.
Простой боксплот
В простом Boxplot мы выбираем одну переменную из набора данных, а другую — для формирования категории. Значения первой переменной классифицируются по количеству групп по числу различных значений во второй переменной.
пример
В приведенном ниже примере мы выбираем переменную мощность в качестве первой переменной и вводим в качестве переменной категории. Таким образом, мы получаем боксы для распределения значений лошадиных сил для каждого типа автомобиля.
Когда мы выполняем приведенный выше код, мы получаем следующий вывод:
Boxplot в вертикальных панелях
Мы можем разделить Boxplots переменной на множество вертикальных панелей (столбцов). Каждая панель содержит поля для всех категориальных переменных. Но блокпосты далее группируются с использованием другой третьей переменной, которая делит график на несколько панелей.
пример
В приведенном ниже примере мы обрисовали график с помощью переменной ‘make’. Так как есть два разных значения make, мы получаем две вертикальные панели.
Когда мы выполняем приведенный выше код, мы получаем следующий вывод:
Boxplot в горизонтальных панелях
Мы можем разделить Boxplots переменной на множество горизонтальных панелей (рядов). Каждая панель содержит поля для всех категориальных переменных. Но блокпосты далее группируются с использованием другой третьей переменной, которая делит график на несколько панелей. В приведенном ниже примере мы обрисовали график с помощью переменной ‘make’. Поскольку есть два разных значения make, мы получаем две горизонтальные панели.
Когда мы выполняем приведенный выше код, мы получаем следующий вывод:
SAS — среднее арифметическое
Синтаксис
Основной синтаксис для вычисления среднего арифметического в SAS —
Ниже приведено описание используемых параметров:
DATASET — это имя используемого набора данных.
Переменные — это имя переменной из набора данных.
DATASET — это имя используемого набора данных.
Переменные — это имя переменной из набора данных.
Среднее из набора данных
Среднее значение каждой числовой переменной в наборе данных рассчитывается с использованием PROC путем предоставления только имени набора данных без каких-либо переменных.
пример
В приведенном ниже примере мы находим среднее значение всех числовых переменных в наборе данных SAS с именем CARS. Мы указываем, что максимальные цифры после десятичного знака равны 2, а также находим сумму этих переменных.
Когда приведенный выше код выполняется, мы получаем следующий вывод:
Среднее из выбранных переменных
пример
Ниже мы вычисляем среднее значение трех переменных.
Когда приведенный выше код выполняется, мы получаем следующий вывод:
Имеется в виду по классу
Мы можем найти среднее значение числовых переменных, организовав их в группы, используя некоторые другие переменные.
пример
В приведенном ниже примере мы находим среднее значение переменной мощности для каждого типа под каждой маркой автомобиля.
Когда приведенный выше код выполняется, мы получаем следующий вывод:
SAS — стандартное отклонение
Стандартное отклонение (SD) является мерой того, насколько разнообразны данные в наборе данных. Математически он измеряет, насколько далеко или близко каждое значение от среднего значения набора данных. Значение стандартного отклонения, близкое к 0, указывает, что точки данных, как правило, очень близки к среднему значению набора данных, а высокое стандартное отклонение указывает, что точки данных распределены по более широкому диапазону значений.
В SAS значения SD измеряются с помощью PROC MEAN, а также PROC SURVEYMEANS.
Использование PROC MEANS
Для измерения SD с помощью средств proc мы выбираем параметр STD на шаге PROC. Он выводит значения SD для каждой числовой переменной, присутствующей в наборе данных.
Синтаксис
Основной синтаксис для расчета стандартного отклонения в SAS —
Ниже приведено описание используемых параметров:
Набор данных — это имя набора данных.
Набор данных — это имя набора данных.
пример
В приведенном ниже примере мы создаем набор данных CARS1 из набора данных CARS в библиотеке SASHELP. Мы выбираем вариант STD с шагом PROC означает.
Когда мы выполняем приведенный выше код, он дает следующий вывод —
Использование PROC SURVEYMEANS
Эта процедура также используется для измерения SD наряду с некоторыми дополнительными функциями, такими как измерение SD для категориальных переменных, а также для получения оценок отклонений.
Синтаксис
Синтаксис использования PROC SURVEYMEANS —
Ниже приведено описание используемых параметров:
BY — указывает переменные, используемые для создания групп наблюдений.
CLASS — указывает переменные, используемые для категориальных переменных.
VAR — указывает переменные, для которых будет рассчитываться SD.
BY — указывает переменные, используемые для создания групп наблюдений.
CLASS — указывает переменные, используемые для категориальных переменных.
VAR — указывает переменные, для которых будет рассчитываться SD.
пример
В приведенном ниже примере описано использование опции класса, которая создает статистику для каждого из значений в переменной класса.
Когда мы выполняем приведенный выше код, он дает следующий вывод —
Использование опции BY
Приведенный ниже код дает пример опции BY. В нем результат группируется для каждого значения в опции BY.
пример
Когда мы выполняем приведенный выше код, он дает следующий вывод —
Результат для make = «Audi»
Результат для марки = «BMW»
SAS — Распределение частот
Распределение частот — это таблица, показывающая частоту точек данных в наборе данных. Каждая запись в таблице содержит частоту или количество вхождений значений в определенной группе или интервале, и, таким образом, таблица суммирует распределение значений в выборке.
SAS предоставляет процедуру PROC FREQ для расчета частотного распределения точек данных в наборе данных.
Синтаксис
Основной синтаксис для вычисления распределения частот в SAS —
Ниже приведено описание используемых параметров:
Набор данных — это имя набора данных.
Переменные_1 — это имена переменных набора данных, распределение частот которого необходимо рассчитать.
Переменные_2 — это переменные, которые классифицировали результат распределения частоты.
Набор данных — это имя набора данных.
Переменные_1 — это имена переменных набора данных, распределение частот которого необходимо рассчитать.
Переменные_2 — это переменные, которые классифицировали результат распределения частоты.
Распределение частоты одной переменной
Мы можем определить распределение частоты одной переменной с помощью PROC FREQ. В этом случае результат покажет частоту каждого значения переменной. Результат также показывает процентное распределение, совокупную частоту и совокупный процент.
пример
В приведенном ниже примере мы находим частотное распределение переменной лошадиной силы для набора данных с именем CARS1, который создается из библиотеки SASHELP.CARS. Мы можем видеть результат, разделенный на две категории результатов. Один для каждой марки автомобиля.
Когда приведенный выше код выполняется, мы получаем следующий результат —
Многократное частотное распределение
Мы можем найти частотные распределения для нескольких переменных, которые группируют их во все возможные комбинации.
пример
В приведенном ниже примере мы рассчитываем распределение частоты для марки автомобиля, сгруппированного по типу автомобиля, а также распределение частоты для каждого типа автомобиля, сгруппированного по каждой марке.
Когда приведенный выше код выполняется, мы получаем следующий результат —
Распределение частот с весом
С помощью опции веса мы можем рассчитать распределение частоты, смещенное с весом переменной. Здесь значение переменной берется как количество наблюдений, а не как количество значений.
пример
В приведенном ниже примере мы рассчитываем распределение частот переменных и типа с весом, назначенным для лошадиных сил.
Когда приведенный выше код выполняется, мы получаем следующий результат —
SAS — кросс-таблицы
Синтаксис
Основной синтаксис для применения кросс-табуляции в SAS —
Ниже приведено описание используемых параметров:
Набор данных — это имя набора данных.
Переменная_1 и Переменная_2 — это имена переменных набора данных, распределение частот которых необходимо рассчитать.
Набор данных — это имя набора данных.
Переменная_1 и Переменная_2 — это имена переменных набора данных, распределение частот которых необходимо рассчитать.
пример
Рассмотрим случай определения количества типов автомобилей под каждой маркой автомобилей из набора данных cars1, созданного из SASHELP.CARS, как показано ниже. В этом случае нам нужны отдельные значения частоты, а также сумма значений частоты по маркам и типам. Мы можем наблюдать, что результат показывает значения по строкам и столбцам.
Когда приведенный выше код выполняется, мы получаем следующий результат —
Перекрестная таблица из 3 переменных
Когда у нас есть три переменные, мы можем сгруппировать 2 из них и скрестить каждую из этих двух с третьим допустимым. Таким образом, в результате мы имеем два кросс-таблицы.
пример
В приведенном ниже примере мы находим частоту каждого типа автомобиля и каждой модели автомобиля по отношению к марке автомобиля. Также мы используем опции nocol и norow, чтобы избежать значений суммы и процента.
Когда приведенный выше код выполняется, мы получаем следующий результат —
Перекрестная таблица из 4 переменных
С 4 переменными количество парных комбинаций увеличивается до 4. Каждая переменная из группы 1 соединяется с каждой переменной из группы 2.
пример
В приведенном ниже примере мы находим частоту длины автомобиля для каждой марки и каждой модели. Аналогично частота лошадиных сил для каждой марки и каждой модели.
Когда приведенный выше код выполняется, мы получаем следующий результат —
SAS — T Тесты
T-тесты выполняются для вычисления доверительных интервалов для одного или двух независимых образцов путем сравнения их средних и средних различий. Процедура SAS с именем PROC TTEST используется для проведения t-тестов для одной переменной и пары переменных.
Синтаксис
Основной синтаксис применения PROC TTEST в SAS —
Ниже приведено описание используемых параметров:
Набор данных — это имя набора данных.
Переменная_1 и Переменная_2 — это имена переменных набора данных, используемого в t-тесте.
Набор данных — это имя набора данных.
Переменная_1 и Переменная_2 — это имена переменных набора данных, используемого в t-тесте.
пример
Ниже мы видим один пример t-теста, в котором находят оценку t-теста для переменной мощности с 95-процентным доверительным интервалом.
Когда приведенный выше код выполняется, мы получаем следующий результат —
Парный Т-тест
Парный T-тест проводится для проверки того, являются ли две зависимые переменные статистически отличными друг от друга или нет.
пример
Поскольку длина и вес автомобиля будут зависеть друг от друга, мы применяем парный Т-тест, как показано ниже.
Когда приведенный выше код выполняется, мы получаем следующий результат —
Два образца t-теста
Этот t-тест предназначен для сравнения средних значений одной и той же переменной между двумя группами.
пример
В нашем случае мы сравниваем среднее значение переменной мощности для двух разных марок автомобилей («Ауди» и «БМВ»).
Когда приведенный выше код выполняется, мы получаем следующий результат —
SAS — корреляционный анализ
Синтаксис
Основной синтаксис для применения PROC CORR в SAS —
Ниже приведено описание используемых параметров:
Набор данных — это имя набора данных.
Опции — это дополнительная опция с такой процедурой, как построение матрицы и т. Д.
Переменная — это имя переменной набора данных, используемого для нахождения корреляции.
Набор данных — это имя набора данных.
Опции — это дополнительная опция с такой процедурой, как построение матрицы и т. Д.
Переменная — это имя переменной набора данных, используемого для нахождения корреляции.
пример
Коэффициенты корреляции между парой переменных, доступных в наборе данных, можно получить, используя их имена в выражении VAR. В приведенном ниже примере мы используем набор данных CARS1 и получаем результат, показывающий коэффициенты корреляции между лошадиными силами и весом.
Когда приведенный выше код выполняется, мы получаем следующий результат —
Корреляция между всеми переменными
Коэффициенты корреляции между всеми переменными, доступными в наборе данных, можно получить, просто применив процедуру с именем набора данных.
пример
В приведенном ниже примере мы используем набор данных CARS1 и получаем результат, показывающий коэффициенты корреляции между каждой парой переменных.
Когда приведенный выше код выполняется, мы получаем следующий результат —
Матрица корреляции
пример
В приведенном ниже примере мы получаем матрицу между лошадиными силами и весом.
Когда приведенный выше код выполняется, мы получаем следующий результат —
SAS — линейная регрессия
Линейная регрессия используется для определения взаимосвязи между зависимой переменной и одной или несколькими независимыми переменными. Предлагается модель взаимосвязи, и оценки значений параметров используются для разработки оценочного уравнения регрессии.
Затем используются различные тесты, чтобы определить, является ли модель удовлетворительной. Если это так, оцененное уравнение регрессии может использоваться для прогнозирования значения зависимой переменной с учетом значений для независимых переменных. В SAS процедура PROC REG используется для нахождения модели линейной регрессии между двумя переменными.
Синтаксис
Основной синтаксис для применения PROC REG в SAS —
Ниже приведено описание используемых параметров:
Набор данных — это имя набора данных.
variable_1 и variable_2 являются именами переменных набора данных, используемого при поиске корреляции.
Набор данных — это имя набора данных.
variable_1 и variable_2 являются именами переменных набора данных, используемого при поиске корреляции.
пример
В приведенном ниже примере показан процесс поиска корреляции между двумя переменными лошадиными силами и весом автомобиля с помощью PROC REG. В результате мы видим значения перехвата, которые можно использовать для формирования уравнения регрессии.
Когда приведенный выше код выполняется, мы получаем следующий результат —
Приведенный выше код также дает графическое представление различных оценок модели, как показано ниже. Будучи продвинутой процедурой SAS, она просто не останавливается на выдаче значений перехвата в качестве вывода.
SAS — Мягкий Альтман Анализ
Анализ Бланда-Альтмана — это процесс проверки степени согласия или несогласия между двумя методами, предназначенными для измерения одних и тех же параметров. Высокая корреляция между методами указывает на то, что при анализе данных была выбрана достаточно хорошая выборка. В SAS мы создаем график Бланда-Альтмана, вычисляя среднее, верхний и нижний пределы значений переменных. Затем мы используем PROC SGPLOT для создания сюжета Бланда-Альтмана.
Синтаксис
Основной синтаксис применения PROC SGPLOT в SAS —
Ниже приведено описание используемых параметров:
Набор данных — это имя набора данных.
Оператор SCATTER создает график графика рассеяния значения, представленного в форме X и Y.
REFLINE создает горизонтальную или вертикальную контрольную линию.
Набор данных — это имя набора данных.
Оператор SCATTER создает график графика рассеяния значения, представленного в форме X и Y.
REFLINE создает горизонтальную или вертикальную контрольную линию.
пример
В приведенном ниже примере мы берем результат двух экспериментов, сгенерированных двумя методами, названными new и old. Мы рассчитываем различия в значениях переменных, а также среднее значение переменных одного и того же наблюдения. Мы также рассчитываем значения стандартного отклонения, которые будут использоваться в верхней и нижней границе расчета.
Результат показывает график Бланда-Альтмана как график рассеяния.
Когда приведенный выше код выполняется, мы получаем следующий результат —
Улучшенная модель
В расширенной модели вышеуказанной программы мы получаем подгонку кривой уровня достоверности 95%.
Когда приведенный выше код выполняется, мы получаем следующий результат —
SAS — Площадь Чи
Критерий хи-квадрат используется для изучения связи между двумя категориальными переменными. Его можно использовать для проверки как степени зависимости, так и степени независимости между переменными. SAS использует PROC FREQ вместе с опцией chisq для определения результата теста хи-квадрат.
Синтаксис
Основной синтаксис для применения PROC FREQ для теста хи-квадрат в SAS —
Ниже приведено описание используемых параметров:
Набор данных — это имя набора данных.
Переменные — это имена переменных набора данных, которые используются в тесте хи-квадрат.
Процентные значения в операторе TESTP представляют процентное содержание уровней переменной.
Набор данных — это имя набора данных.
Переменные — это имена переменных набора данных, которые используются в тесте хи-квадрат.
Процентные значения в операторе TESTP представляют процентное содержание уровней переменной.
пример
В приведенном ниже примере мы рассмотрим критерий хи-квадрат для переменной с именем type в наборе данных SASHELP.CARS. Эта переменная имеет шесть уровней, и мы назначаем процент каждому уровню в соответствии с дизайном теста.
Когда приведенный выше код выполняется, мы получаем следующий результат —
Мы также получаем гистограмму, показывающую отклонение типа переменной, как показано на следующем снимке экрана.
Двухсторонний хи-квадрат
Двусторонний критерий хи-квадрат используется, когда мы применяем тесты к двум переменным набора данных.
пример
В приведенном ниже примере мы применяем критерий хи-квадрат к двум переменным с именем type и origin. Результат показывает табличную форму всех комбинаций этих двух переменных.
Когда приведенный выше код выполняется, мы получаем следующий результат —
SAS — Точные тесты Fishers
Синтаксис
Основной синтаксис для применения теста Fisher Exact в SAS —
Ниже приведено описание используемых параметров:
набор данных — это имя набора данных.
Переменная_1 * Переменная_2 — это переменные из набора данных.
набор данных — это имя набора данных.
Переменная_1 * Переменная_2 — это переменные из набора данных.
Применение точного теста Фишера
Чтобы применить точный тест Фишера, мы выбираем две категориальные переменные с именами Test1 и Test2 и их результат. Мы используем PROC FREQ, чтобы применить тест, показанный ниже.
пример
Когда приведенный выше код выполняется, мы получаем следующий результат —
SAS — анализ повторных измерений
Повторный анализ измерений используется, когда все члены случайной выборки измеряются в ряде различных условий. Поскольку образец подвергается воздействию каждого условия по очереди, измерение зависимой переменной повторяется. Использование стандартного ANOVA в этом случае нецелесообразно, так как не удается смоделировать корреляцию между повторными измерениями.
Необходимо четко понимать разницу между дизайном с повторными измерениями и простым многовариантным дизайном. Для обоих членов выборки измеряются несколько раз или в испытаниях, но в схеме с повторными измерениями каждое испытание представляет собой измерение одной и той же характеристики в разных условиях.
В SAS PROC GLM используется для анализа повторных измерений.
Синтаксис
Основной синтаксис для PROC GLM в SAS —
Ниже приведено описание используемых параметров:
набор данных — это имя набора данных.
КЛАСС дает переменным переменную, используемую в качестве классификационной переменной.
MODEL определяет модель для подгонки, используя определенные переменные из набора данных.
REPEATED определяет количество повторных измерений каждой группы для проверки гипотезы.
набор данных — это имя набора данных.
КЛАСС дает переменным переменную, используемую в качестве классификационной переменной.
MODEL определяет модель для подгонки, используя определенные переменные из набора данных.
REPEATED определяет количество повторных измерений каждой группы для проверки гипотезы.
пример
Рассмотрим приведенный ниже пример, в котором у нас есть две группы людей, подвергнутых испытанию на эффект наркотика. Время реакции каждого человека записывается для каждого из четырех протестированных типов лекарств. Здесь проводится 5 испытаний для каждой группы людей, чтобы увидеть силу корреляции между эффектом четырех типов наркотиков.
Когда приведенный выше код выполняется, мы получаем следующий результат —
SAS — One Way Anova
Синтаксис
Основной синтаксис применения PROC ANOVA в SAS —
Ниже приведено описание используемых параметров:
набор данных — это имя набора данных.
КЛАСС дает переменным переменную, используемую в качестве классификационной переменной.
MODEL определяет модель для подгонки, используя определенные переменные из набора данных.
Переменная_1 и Переменная_2 — это имена переменных набора данных, используемого в анализе.
СРЕДСТВО определяет тип расчета и сравнения средств.
набор данных — это имя набора данных.
КЛАСС дает переменным переменную, используемую в качестве классификационной переменной.
MODEL определяет модель для подгонки, используя определенные переменные из набора данных.
Переменная_1 и Переменная_2 — это имена переменных набора данных, используемого в анализе.
СРЕДСТВО определяет тип расчета и сравнения средств.
Применяя ANOVA
Давайте теперь разберемся с концепцией применения ANOVA в SAS.
пример
Давайте рассмотрим набор данных SASHELP.CARS. Здесь мы изучаем зависимость между переменным типом автомобиля и их лошадиными силами. Поскольку тип автомобиля является переменной с категориальными значениями, мы принимаем ее как переменную класса и используем обе эти переменные в МОДЕЛИ.
Когда приведенный выше код выполняется, мы получаем следующий результат —
Применение ANOVA со средствами
Давайте теперь поймем концепцию применения ANOVA со средствами в SAS.
пример
Мы также можем расширить модель, применив инструкцию MEANS, в которой мы используем турецкий метод Studentized для сравнения средних значений различных типов автомобилей. Категории типов автомобилей перечислены со средним значением лошадиных сил в каждой категории вместе с некоторыми дополнительными значениями, такими как среднеквадратичная ошибка и т. д.
Когда приведенный выше код выполняется, мы получаем следующий результат —
SAS — Проверка гипотез
Проверка гипотез — это использование статистики для определения вероятности того, что данная гипотеза верна. Обычный процесс проверки гипотез состоит из четырех этапов, как показано ниже.
Шаг 1
Сформулируйте нулевую гипотезу H0 (обычно, что наблюдения являются результатом чистой случайности) и альтернативную гипотезу H1 (обычно, что наблюдения показывают реальный эффект в сочетании с компонентом случайного изменения).
Шаг 2
Определите тестовую статистику, которая может быть использована для оценки истинности нулевой гипотезы.
Шаг 3
Вычислите P-значение, которое является вероятностью того, что тестовая статистика, по крайней мере, столь же значимая, как и наблюдаемая, будет получена при условии, что нулевая гипотеза верна. Чем меньше значение P, тем сильнее доказательства против нулевой гипотезы.
Шаг 4
Сравните значение p с приемлемым значением значимости альфа (иногда называемым значением альфа). Если р
Язык программирования SAS имеет функции для проведения различных типов проверки гипотез, как показано ниже.