Verify disk media что это
Verify disk media что это
Всем привет, сегодня мы с вами будем настраивать контроллер adaptec raid 8885, который попал ко мне на тестирование. У меня в компании мы сейчас выбираем RAID контроллер для серверов с SSD дисками. Ранее я уже оттестировал LSI 9361-8i и предоставил не одну статью, как и с чем пришлось столкнуть при его запуске на сервере HP proliant g7. Пришла очередь adaptec 8885, так же очень свежий контроллер. Думаю статей будет несколько, иначе будет просто длиннющий пост, что не удобно.
Задача
Установка adaptec 8885 в HP
Напомню, что HP довольно проприетарный вендор и все в своих серверах производит сам, и не особо дружит, по крайней мере официально с другими вендорами, примером могут служить грабли с установкой в него все того же LSI 9361-8i, я описал метод как их подружить. Когда вы вставите adaptec raid 8885, то в BIOS HP он будет видится как неизвестное устройство, можете смело на это забить, это ни как не повлияет на работу. Единственное, хочу сразу порекомендовать обновить все прошивки на hp сервере, чтобы все было максимально свежее.
Создаем raid массив
Итак двигаемся дальше и создадим raid массив на нашем adaptec raid контроллере. У меня в арсенале 2 SAS диска под RAID-1 зеркало. для системы и 6 ssd дисков для создания RAID-5 до RAID-10 lun. Для нарезки LUN (Logical Unit Number), логических дисков на raid контроллере, нам поможет встроенная bios подобная утилита Adaptec RAID Configuration Utility (ранее называлась Array Configuration Utility (ACU)). Для попадания в RAID Configuration Utility, далее сокращаем до RCU, нужно перезагрузить сервер и дождаться вот такого окна, в котором просто нужно нажать
возможны другие конфигурации. Еще некоторые сервера, например как мой грузились и не показывали данное окно, для этого приходилось при загрузке нажимать F8, заходить в меню настройки ILO, сразу от туда выходить и только потом виделся нужный экран. Если у вас UEFI BIOS, то вы можете создавать raid массивы из него, за счет hii (uefi human interface infrastructure), если по русски то утилита для людей:)
В конечно счете мы попадаем в утилиту RCU
Disk Utilities
Первым делом давайте зайдем в пункт меню Disk Utilities, тут вам покажут все ваши диски, с их моделями и вендорами, а так же тип подключения. У меня 6 ssd Sansung EVO 850 и два HP sas 600 гб.
Далее выбрав любой raid диск и нажав enter вы можете получить список команд:
Выбираем допустим форматирование
Начнется форматирование, по времени занимает по разному все зависит от размера raid диска.
Также можно выбрать Ferify Disk Media, начнется проверка HDD на битые сектора.
Выходим из данного меню и рассмотрим настройки самого контроллера Adaptec.
Controller Settings
Заходим в пункт Controller Settings.
Далее на выбор у вас настройки самого контроллера adaptec (Controller Configuration) либо Дополнительные (Advanced Configuration).
Посмотрим основные настройки Controller Configuration. У вас тут будут такие опции:
Advanced Configuration
В Advanced Configuration режиме у adaptec raid controllers можно настроить вот такие значения:
В следующей части мы поговорим про создание raid массивов различных типов. Настраиваем adaptec raid 8885, создание raid массивов.
Системное администрирование и мониторинг Linux/Windows серверов и видео CDN
Статьи по настройке и администрированию Windows/Linux систем
S.M.A.R.T. (часть 1). Мониторинг SCSI дисков под LSI 2108 (megaraid) RAID контроллером
Навожу короткую инструкция по мониторингу физических дисков под хардварным LSI 2108 RAID контроллером. Так же эта инструкция может пригодиться для мониторинга дисков под HP/Compaq Smart Array Controller, Areca SATA[/SAS] RAID controller и другими, используя инструмент smart в сочетании с специализированными программами. Перечень контроллеров, за которыми можно мониторить физические диски используя smartctl наведен здесь.
Немного о HDD интерфейсах
Аббревиатуры:
SCSI— Small Computer System Interface
SAS— Serial Attached SCSI
SATA — Serial ATA
ATA — AT Attachment
Чтобы визуально понять как выглядят те, или иные интерфейсы навожу картинки.
С интерфейсами все понятно, переходим к практике.
Мониторинг дисков используя megacli
Смотрим какие у нас есть диски.
SMC2108 — означает, что у нас Supermicro MC2108 контроллер. Так же можно убедиться, что у нас Megaraid контроллер используя эту команду.
Как видим, у нас LSI SAS MegaRAID контроллер, диски которого можно мониторить используя smartctl или же используя специализированную утилиту megacli. Для начала присмотримся к megacli. В стандартных репозиториях ее нет, но можно скачать с официального сайта и собрать с исходников. Но я рекомендую использовать специальный репозиторий (за который хочу сказать ОГРОМНОЕ спасибо) в котором есть почти весь набор специализированных утилиты под любой тип аппаратных рейдов.
Перечень всех доступных в репозитории утилит наведен здесь
Проверяем на ошибки физический диск megaraid используя megacli.
Как видим, на первом физическом диске есть «Media Error Count: 38». Это означает, что запасные(зарезервированные) сектора для remap(замены) битых секторов диска — закончились. И нужно проводить замену диска.
Так же нужно мониторить следующие параметры используя команду:
Теперь напишем маленький скрипт для мониторинга всех нужных параметров включая BBU.
Данный скрипт проверяет все диски на наличие проблем с прошивкой,состояние рейда,ошибки физических дисков и состояние батареи. Если есть проблема с батареей — код выхода скрипта будет больше 250, если проблемы с остальными устройствами, то будет выведено только количество ошибок. Скрипт запускается без аргументов. Если добавить аргумент log, будет выведено текст с указанием проблемного элемента. Проверяем работу скрипта:
Как видим у нас проблема с батареей (BBU) и ее нужно заменить.
По роботе с magacli есть целая книга-руководство.
Из полезных команд:
Мониторинг дисков используя smartctl
Для этого нам понадобиться тот же megacli, используя который, мы узнаем ID физических дисков и соответствующие им логические носители. Начнем.
Узнаем ID всех физических дисков за мегарейд контроллером ну и номера соответствующих логических дисков.
Расшифрую эту команду:
Теперь видно, что у нас три логических(виртуальных) диска в которые входят по несколько физических дисков с соответствующими ID. Посмотрим на сервере, сколько у нас есть дисков:
Все верно, у нас три логических диска в системе. Проводим аналогию с выводом команды megacli:
К примеру возьмем первый диск.
Как видим у нас есть 60 ошибок с которыми не смогла справиться система исправления ошибок.
Немного расшифрую выводу ошибок:
Журнал ошибок (если он доступен) отображается в отдельных строках:
Так же может выводиться детальное описание последних ошибок с кодом, если устройство его поддерживает(если нет поддержки — выводиться сообщение «Error Events logging not supported»). К примеру:
Каждая из ошибок имеет различные коды. Оригинал описания кодов взято из мануала по SCSI Seagate дискам:
Errors Corrected by ECC, fast [Errors corrected without substantial delay: 00h]. An error correction was applied to get perfect data (a.k.a. ECC on-the-fly). «Without substantial delay» means the correction did not postpone reading of later sectors (e.g. a revolution was not lost). The counter is incremented once for each logical block that requires correction. Two different blocks corrected during the same command are counted as two events.
Errors Corrected by ECC: delayed [Errors corrected with possible delays: 01h]. An error code or algorithm (e.g. ECC, checksum) is applied in order to get perfect data with substantial delay. «With possible delay» means the correction took longer than a sector time so that reading/writing of subsequent sectors was delayed (e.g. a lost revolution). The counter is incremented once for each logical block that requires correction. A block with a double error that is correctable counts as one event and two different blocks corrected during the same command count as two events.
Error corrected by rereads/rewrites [Total (e.g. rewrites and rereads): 02h]. This parameter code specifies the counter counting the number of errors that are corrected by applying retries. This counts errors recovered, not the number of retries. If five retries were required to recover one block of data, the counter increments by one, not five. The counter is incremented once for each logical block that is recovered using retries. If an error is not recoverable while applying retries and is recovered by ECC, it isn’t counted by this counter; it will be counted by the counter specified by parameter code 01h — Errors Corrected With Possible Delays.
Total errors corrected [Total errors corrected: 03h]. This counter counts the total of parameter code errors 00h, 01h and 02h (i.e. error corrected by ECC: fast and delayed plus errors corrected by rereads and rewrites). There is no «double counting» of data errors among these three counters. The sum of all correctable errors can be reached by adding parameter code 01h and 02h errors, not by using this total. [The author does not understand the previous sentence from the Seagate manual.]
Correction algorithm invocations [Total times correction algorithm processed: 04h]. This parameter code specifies the counter that counts the total number of retries, or «times the retry algorithm is invoked». If after five attempts a counter 02h type error is recovered, then five is added to this counter. If three retries are required to get stable ECC syndrome before a counter 01h type error is corrected, then those three retries are also counted here. The number of retries applied to unsuccessfully recover an error (counter 06h type error) are also counted by this counter.
Gigabytes processed [Total bytes processed: 05h]. This parameter code specifies the counter that counts the total number of bytes either successfully or unsuccessfully read, written or verified (depending on the log page) from the drive. If a transfer terminates early because of an unrecoverable error, only the logical blocks up to and including the one with the uncorrected data are counted. [smartmontools divides this counter by 10^9 before displaying it with three digits to the right of the decimal point. This makes this 64 bit counter easier to read.]
Total uncorrected errors [Total uncorrected errors: 06h]. This parameter code specifies the counter that contains the total number of blocks for which an uncorrected data error has occurred.
С всего этого нас интересует параметр Total uncorrected errors который показывает количество не исправленных ошибок. Если это число велико, то нужно запускать long тест и проверить, дополнительно, параметры физического диска в Megaraid контроллере.
Мониторинг дисков используя smartd
Предыдущие способы мониторинга дисков были ручными, т.е. нужно вручную запускать проверку дисков находясь на конкретном сервере, или же настроить систему мониторинга, которая будет использовать написанные выше скрипты для сбора информации о состоянии дисков. Но есть еще один способ мониторинга — это использование демона smartd, который будет отправлять нам письма о проблемных дисках. Детально о настройках демона smartd можно почитать здесь
Для начала добавим демон в автозагрузку.
Системное администрирование и мониторинг Linux/Windows серверов и видео CDN
Статьи по настройке и администрированию Windows/Linux систем
S.M.A.R.T. (часть 5). Мониторинг дисков под Adaptec AAC-Raid контроллером
Мы уже познакомились с мониторингом дисков под Hewlett-Packard Company Smart Array контроллером, LSI 2108 Megaraid контроллером и познакомились с мониторингом SMART атрибутов. Продолжим знакомство с мониторингом жестких дисков и возьмемся за мониторинг HDD за Adaptec RAID контроллером под дистрибутивом Ubuntu 12.04.
Для мониторинга дисков под Adaptec AACRaid контролером можно использовать бесплатную утилиту arcconf, утилиты aacraid-status, afacli, aaccli или графическую утилиту adaptec-storage-manager-gui или просто юзать smartctl или smartd. В данной инструкции я опишу работу с arcconf утилитой, smartctl и smartd так как остальные утилиты выдают очень мало информации, а с графическим интерфейсом я не люблю играться.
Мониторинг дисков используя arcconf
Для начала нужно убедиться, что у нас именно Adaptec AAC-Raid
Вывод может быть и такого типа
Следующим шагом нужно установить opensource утилиту arcconf с моего любимого репозитория.
Первой командой нужно вытянуть информацию об контроллере. Эта же команда нам даст всю необходимую информацию о статусе батарее, логических и физических дисках.
Из всего полученного вывода нам нужны только такие параметра как состояние контроллера (Controller Status), статус батареи BBU (Controller Battery Information), статус логических дисковых масивов (Status of logical device) и статус каждого физического диска (Device #*). Для этого я написал маленький скрипт, подобный скрипту в предыдущей статье.
Опишу немного данный скрипт. Сначала мы сохраняем всю информацию о здоровье контроллера в файл /tmp/aacraid.log. Далее вытаскиваем значение статуса контроллера, батареи, логических и физических дисков. В функции get_status перебираются все полученные значения и сравниваются со статусами Optimal и Online. Если значения отличны от нормальных, значит есть проблема и число ошибок растет. Если скрипт запустить без аргументов, то мы получим число ошибок, если добавить аргумент log – узнаем с чем именно у нас проблемы.
Проверяем.
Полезные команды утилиты arcconf
Мониторинг дисков используя smartctl
Так же статус Adaptec AAC-RAID можно проверять используя smartctl утилиту. Adaptec контроллер дает возможность прямого доступа к физическим дискам, которые к нему подключены. В операционной системе эти диски представлены в виде /dev/sg* символьных устройств. Проверяем, какие у нас есть устройства
Как видим, у нас 10 таких устройств, первое из которых – это cdrom, а последнее – тоже не наше. Значит дисков у нас выходит 8, хотя реально физических дисков мы нашли 6 используя утилиту arcconf. Причина в том, что среди этих символьных устройств есть еще и два логических диска нашего контроллера и по этому в сумме как раз выходит 8. Теперь проверяем где у нас логические диски (по которым мы не получим полной smart информации) и физические диски.
Здесь мы получили информацию о наших логических дисках, которые назывались при создании – OS и DATA соответственно /dev/sda и /dev/sdb.
Теперь проверим статус физических дисков
Таким образом мы получим информацию о каждом физическом диске.
Мониторинг дисков используя smartd
Предыдущие способы мониторинга дисков были ручными, т.е. нужно вручную запускать проверку дисков находясь на конкретном сервере, или же настроить систему мониторинга, которая будет использовать написанные выше скрипты для сбора информации о состоянии дисков. Но есть еще один способ мониторинга — это использование демона smartd, который будет отправлять нам письма о проблемных дисках. Детально о настройках демона smartd можно почитать здесь
Для начала добавим демон в автозагрузку.
Так же было добавлено интервал запуска проверок. Далее нам нужно добавить диски на мониторинг, для чего служит файл smartd.conf.
Немного расшифрую вывод. Для все дисков включено запуск офлайн тестов (-o on) для обновление и сохранения значений атрибутов (-S on). Так же добавлена проверка всех текущих параметров (-а) и назначено запуск дополнительных коротких тестов каждый день в полночь (S/../.././00) и долгих тестов каждое воскресенье с 3 часов ночи (L/../../7/03). Если будет проблема хотя бы с одной из метрик — будет отправлено письмо на соответствующий адрес (-m your@emailaddress.com). При этом письма будут отправляться систематически — 1,2,4,8,16,… дни (-M diminishing), пока проблема не будет устранена.
В следующей статье пойдет речь о мониторинге дисков под LSI Fusion-MPT SAS контроллером
Что в действительности делают Verify Disk и Repair Disk в Дисковой утилите?
Недавно я подозревал проблемы с моим жестким диском и увидел здесь другой ответ на AskDifferent с рекомендацией Drive Genius или Disk Warrior.
Я подумал, что начну думать с помощью встроенного приложения Дисковой утилиты.
Насколько хороша Дисковая утилита для выявления проблем с оборудованием, и что на самом деле делают «Проверка диска» и «Восстановление диска»?
Опция проверки (и восстановления) вашего диска связана с исправностью файловой системы (HFS +) и целостностью данных, которые на ней находятся, а не физического диска. Он смотрит на то, как хранятся данные, а не на то, сообщает ли привод о механических ошибках (в некоторой степени это отражается в состоянии SMART). Однако следует полагать, что аппаратный сбой, вероятно, проникает через структуру файловой системы (хотя и не всегда).
Дисковая утилита хороша в поиске аппаратных проблем? Нет, не совсем. Это значит больше изолировать проблемы с вашим набором данных, чем с вашим оборудованием. Там, конечно, есть некоторая преемственность, но они не моногамны.
DiskWarrior и Drive Genius, несомненно, будут намного лучше диагностировать физическое состояние вашего диска. Но ни одна из них не является настолько мощной, как утилиты, выпущенные вашим производителем жесткого диска. Если вы можете использовать их, то тем лучше. Использование нескольких инструментов также может оказаться эффективной стратегией.
Использование smartctl для проверки RAID контроллеров Adaptec под Linux
Распознает ли Linux контроллер Adaptec RAID?
Для проверки Вы можете использовать следующую команду:
В результате выполнения команды получите следующее:
Загрузка и установка Adaptec Storage Manager для Linux
Необходимо установить Adaptec Storage Manager в соответсвии собранному дисковому массиву.
Проверяем состояния SATA диска
Команда для сканирования накопителя выглядит довольно просто:
В результате у Вас должно получится следующее:
Таким образом, /dev/sda — это одно устройство, которое было определено как SCSI устройство. Выходит, что у нас SCSI собран из 4 дисков, расположенных в /dev/sg <1,2,3,4>. Введите следующую smartclt команду, чтобы проверить диск позади массива /dev/sda:
Контроллер должен сообщать о состоянии накопителя и уведомлять про ошибки (если такие имеются):
Для SAS диск используют следующий синтаксис:
В результате получим что то похожее на:
А вот команда для проверки следующего диска с интерфейсом SAS, названного /dev/sg2:
В /dev/sg1 заменяется номер диска. Например, если это RAID10 из 4-х дисков, то будет выглядеть так:
Проверить жесткий диск можно с помощью следующих команд:
Использование Adaptec Storage Manager
Другие простые команды для проверки базового состояния выглядят следующим образом:
Обратите внимание на то, что более новая версия arcconf расположена в архиве /usr/Adaptec_Event_Monitor. Таким образом, весь путь должен выглядеть так:
Вы можете самостоятельно проверить состояние массива Adaptec RAID на Linux с помощью ввода простой команды:
# /usr/Adaptec_Event_Monitor/arcconf getconfig 1
Или (более поздняя версия):
Примерный результат на фото:
По традиции, немного рекламы в подвале, где она никому не помешает. Напоминаем, что в связи с тем, что общая емкость сети нидерландского дата-центра, в котором мы предоставляем услуги, достигла значения 5 Тбит / с (58 точек присутствия, включения в 36 точек обмена, более, чем в 20 странах и 4213 пиринговых включений), мы предлагаем выделенные серверы в аренду по невероятно низким ценам, только неделю!.