Wearout ssd что это
Общие интеллектуальные атрибуты для клиентских® SSD Intel® Optane™ технологий
Окружающая среда
Объяснение того, как атрибуты SMART могут контролировать состояние устройства хранения данных. В этой статье описываются распространенные атрибуты, поддерживаемые® SSD-® клиентских
Что такое атрибуты SMART и как они могут быть полезны?
Технология самоконтролировать, анализа и отчетности (SMART) — это открытый стандарт, используемый дисками и хостами для мониторинга состояния накопителя и сообщения о потенциальных проблемах.
Каждый диск работает под заранее установленным набором атрибутов SMART и соответствующими предельными значениями, которые диск не должен проходить во время нормальной работы.
Описание некоторых атрибутов SMART Health Info отображается в следующей таблице. Эти атрибуты могут отличаться в зависимости от выбранного SSD-накопителя Intel или другого диска. Некоторые из этих атрибутов могут не поддерживаться вашим SSD-накопителем или диском.
Атрибуты SMART для SATA
Атрибут и описание (SATA)
Количество секторов, переудвижных секторов
В нем отсчитываются номера снятых с производства блоков после выхода с производства (количество дефектов возросло).
Количество часов с отключением питания
Raw value reports the cumulative number of power-on hours over the life of the device.
Примечание. Статус включаемой/выключяемой функции УПРАВЛЕНИЯ питанием (DIPM) влияет на количество часов, о которые сообщили.
Количество циклов питания
В основе данных отчетов о накопительное количество событий цикла питания (включаем/выключение) в течение жизненного цикла устройства.
VailableReserved Space
Сообщает оставшееся количество резервных блоков. Нормализованное значение начинается с 100 (64h), что соответствует 100% доступности зарезервированного пространства. Пороговое значение для этого атрибута — 10% доступности.
Количество сбойов программы
В raw value отсчитываются общее количество сбойов программы. Нормализованное значение, начиная с 100, показывает процент сбой оставшегося допустимого значения программы.
Количество сбойов стирки
На простом значении отсчитываются общее количество стиранных данных. Нормализованное значение, начиная с 100, показывает процент сбой оставшегося допустимого стира.
Непредвиденное отключение питания
Количество конечных обнаружений ошибок
Отчеты о количестве ошибок, с которыми сталкиваются во время проверки адресов логических блоков (LBA) на пути данных SSD. Нормализованное значение начинается с 100 и декрементов по 1 для каждого обнаруженного несоответствия тегов LBA. Пороговое значение : 90.
Количество неустанных ошибок
В raw-значении отсчитываются количество ошибок, которые не могут быть восстановлены с помощью кода коррекции ошибок (ECC).
Temperature (Температура) — воздушный поток (корпус)
Отчет о температуре корпусе SSD в градусах Цельсия. Простое значение:
Нормализовано значение : 100. Температура корпусов рассчитывается на основании смещения от внутреннего датчика температуры.
Безопасное количество выключения (отключение от отката питания)
В оккупном значении сообщается накопительное количество ненадежных (по-тому) событий выключения в течение всего времени службы устройства. Безопасное выключение происходит тогда, когда устройство выключено без ожидания НЕМЕДЛЕННОЙ является последней командой.
Temperature (температура) — внутреннее устройство
Отчет о внутренней температуре SSD-системы. Показания температуры — это значение, прямое от внутреннего датчика. Исходным значением является текущая температура. Нормализованное значение — это мин уравнения результатов (150-ток-терм, 100).
Количество ошибок CRC
Общее количество ошибок, с которыми сталкиваются ошибки интерфейса SATA.
Записи в хост
Raw value reports the total number of sectors written by the host system. Raw value increases by 1 for every 65 536 sectors written by the host.
Время рабочей нагрузки, износ носите информации
Измеряет износ, который износа можно увидеть на SSD-качестве (после сброса timed Workload Timed Workload Timer, атрибут E4) в процентах от максимальных циклов номинальной нагрузки.
Время рабочей нагрузки, коэффициент чтения/записи хоста
Процент операций загрузки/загрузки, которые являются операциями чтения (после сброса timed workload timed Timed Workload Timer, атрибут E4).
Timed Workload Timed Workload Timed Timed Workload Timed Timed Workload Time
Измеряет время, запамянутее (количество минут) с момента запуска этого времени рабочей нагрузки.
Доступное пространство для зарезервированного пространства
Сообщает оставшееся количество резервных блоков. Нормализованное значение начинается с 100 (64h), что соответствует 100% доступности зарезервированного пространства. Пороговое значение для этого атрибута — 10% доступности.
Индикатор износа носитла
Отчет о количестве циклов, которые прошли в медиафайле NAND. Нормализованное значение снижается линейно со 100 до 1 по мере увеличения среднего числа циклов стирки с 0 до максимальных номинальных циклов. Как только нормализованное значение достигает 1, их количество не уменьшается, хотя вероятно, на устройство может быть наложен значительный дополнительный износ.
Общее количество LBAS в письменной области
Кол-во секторов, написанных хостом.
Общее количество прочитано LBAs
Кол-во секторов, прочитано ведущим.
Атрибуты SMART для NVMe*
Атрибут и описание (NVMe)
Критическое предупреждение
Эти биты, если установлены, пометить различные источники предупреждения.
Любое из критически важных предупреждений может быть связано с асинхронным уведомлением о событии.
Температура
Сообщает общую текущую температуру устройства в Кельвине.
Доступные запасные части
Содержит нормализованный процент (от 0 до 100%) оставшейся доступной запасной емкости. Начинается от 100 и декрементов.
Доступное пороговое значение запасных частей
Пороговое значение установлено на 10%.
Оценка использования в процентах
(допустимые значения превышают 100%). Значение 100 указывает на то, что расчетная изостойкость устройства была пополнена, но может не указывать на неисправность устройства. Значение может превышать 100. Проценты с более чем 254 должны быть представлены как 255. Это значение должно быть обновлено один раз в час питания (если контроллер не находится в режиме сна).
Чтение единиц данных(в LBAS)
Содержит число 512 единиц данных, которые хост считает у контроллера. это значение не содержит метаданных. Это значение оценивается в тысячах (то есть значение 1 соответствует 1000 считыванным 512 bytes) и округлено. Если размер LBA является значением, кроме 512 бит, контроллер должен преобразовать количество считыванных данных в 512 бит.
Записи единиц данных(в LBAS)
Содержит 512 единиц данных, которые хост списыл контроллеру. это значение не содержит метаданных. Это значение сообщается в тысячах (то есть, значение 1 соответствует 1000 единицам из 512 написанных bytes) и округлено. Если размер LBA является значением, кроме 512 бит, контроллер должен преобразовать объем данных, написанный в 512 бит. Для набора команд NVM в это значение должны включаться логические блоки, написанные как часть операций записи. Это значение не должно повлиять на написание неустанных команд.
Команды чтения хоста
Здесь содержится номер команд чтения, которые были выданы контроллеру.
Команды записи хоста
Здесь содержится номер команд записи, которые были выданы контроллеру.
Контроллер время работы (через несколько минут)
Содержит время работы контроллера с командами I/O. Контроллер загружен, когда есть выдающаяся команда для очереди под контроллером. (В частности, команда была выдана в результате записи точки входа в очередь ввода/выхода в очередь отправки, и соответствующая запись очереди завершения еще не была размещена в связанной очереди ввода/завершения.) Это значение будет отчитанося в течение нескольких минут.
Циклы питания
Содержит количество циклов питания
Часы работы с питанием
Содержит количество часов работы с питанием. Это не относится к времени, когда питание контроллера было при низком энергосхеме.
Небезопасные отключения
Содержит количество небезопасного выключения. Этот подсчет будет приращен после того, как не будет получено уведомление о выключении системы (CC.SHN) до отключения питания.
Ошибки мультимедиа
Содержит количество ошибок, когда контроллер обнаружил невозвратимую ошибку целостности данных. В это поле включены ошибки, такие как неугрешимые ошибки ECC, ошибка проверки CRC или некорректное несоответствие тега LBA.
Количество входов в журнал сведений об ошибках
Содержит количество входов в журнал Информации об ошибках за время работы контроллера.
Предупреждение о времени перепада температур в композитном режим
Содержит количество времени в минуты, за которые контроллер работает, и температура композита превышает или равна полю (Warning Composite Temperature Threshold) (WCTEMP) и ниже критического порогового значения температуры (CCTEMP) в структуре идентифицирующих данных контроллера.
Критическое время композитной температуры
Контроллер имеет время в несколько минут, а температура композитной температуры (Composite Temperature Threshold) повышается до критического значения (CCTEMP) в структуре идентифицируемой структуры данных контроллера.
Wearout ssd что это
Как мониторить SMART дисков, SSD в RAID на ESXI 5.5-01
Всем привет сегодня хочу поделиться своим опытом в мониторинге S.M.A.R.T дисков, SSD в RAID на ESXI 5.5. Немного скучной теории но без нее ни куда. Современные жесткие диски довольно “умные” устройства и, кроме основных присущих им как устройствам хранения и обработки данных свойств, поддерживают технологию самотестирования, анализа состояния, и накопления статистических данных об ухудшении собственных характеристик S.M.A.R.T. (Self-Monitoring Analysis and Reporting Technology). Основы S.M.A.R.T. были разработаны в 1995 г. совместными усилиями ведущих производителями жестких дисков (HDD). В последующие годы стандарты S.M.A.R.T дорабатывались в соответствии с изменениями технологий и оборудования ( SMART II и SMART III) и продолжают совершенствоваться в настоящее время.
Атрибут представляет собой характеристику определенного состояния жесткого диска, которая изменяется в процессе эксплуатации, принимая числовое значение от максимального, установленного в момент изготовления данного устройства, до минимального, при достижении которого, работоспособность накопителя не гарантируется. Все атрибуты идентифицируются своим цифровым номером, большинство из которых одинаково интерпретируется жесткими дисками разных моделей. Некоторые из них могут использоваться только конкретным производителем оборудования, и поддерживаться отдельными моделями накопителей. Так, например, атрибут с идентификатором 7, характеризующий количество ошибок установки головок на требуемую дорожку поверхности диска Seek_Error_Rate не имеет смысла для твердотельных дисков ( SSD ) и, соответственно, не поддерживается ими, а атрибут с идентификатором 9,характеризующий суммарное время работы накопителя за весь срок эксплуатации и обозначаемый как Power_On_Hours,поддерживается как SSD, так и традиционными HDD.
Атрибуты состоят из нескольких полей, ( наиболее часто обозначаемых как Val, Worst, Tresh, RAW), каждое из которых является определенным показателем, характеризующим техническое состояние накопителя на данный момент времени. Программы считывания S.M.A.R.T. выводят содержимое атрибутов, как правило, в виде нескольких колонок :
В нашем эксперименте будут 3 производителя контроллеров Adaptec, LSI, HP Smart Array. В ESXI есть отличная команда выводящая SMART дисков и SSD. Сначала посмотрим список ваших дисков и LUN.
Как мониторить SMART дисков, SSD в RAID на ESXI 5.5-001
Выводим SMART отдельного диска или LUN.
Если у вас отдельные диски на всех контроллерах Adaptec, LSI, HP Smart Array вы получите такую картину
Как мониторить SMART дисков, SSD в RAID на ESXI 5.5-02
Жирным выделены метрики, которые могут оказаться полезными. Параметр Reallocated Sector Count не должен сильно увеличиваться со временем для исправных дисков. Когда дисковая подсистема получает ошибку read/write/verification для сектора, она перемещает его данные в специально зарезервированную область (spare area), а данный счетчик увеличивается.
Как мониторить SMART дисков, SSD в RAID на ESXI 5.5-04
И вопрос как мониторить SMART в RAID ESXI 5.5, очень просто каждый вендор делает свой CIM пакет, вот как его поставить для каждого вендора. (Adaptec, LSI, HP Smart Array). Так же можно мониторить Operation Manager 5.8.
Расшифровка атрибутов S.M.A.R.T
Оценка технического состояния жесткого диска по данным S.M.A.R.T
Минимально информативный контроль состояния дисков может выполняться даже на уровне BIOS. В случае достижения критического значения любого атрибута, характеризующего работоспособность, при включенном мониторинге состояния S.M.A.R.T в настройках BIOS, загрузка операционной системы приостанавливается и на экран выводится сообщение:
Primary Master Hard Disk: S.M.A.R.T status BAD!, Backup and Replace.
Press F1 to Resume
Таким образом, без установки или запуска дополнительного программного обеспечения, имеется возможность вовремя определить факт критического состояния накопителя средствами Базовой Системы Ввода-Вывода (BIOS) при включении компьютера.
Обновление 11.12.2015
Недавно на тестирование попал RAID контроллер LSI 9361-8i, моделька свежая со всеми наворотами, но сейчас не об этом. Я так же на него установил Vmware ESXI 5.5 и захотел посмотреть дает ли контроллер S.M.A.R.T. Стандартными командами, он не отдал значения, пришлось установить storcli, после чего введя команду
Я получил smart дисков, но в таком не читабельном виде, что просто ужас 🙂 Как вам оно. Принципе если бы было описание полей или строк, все было бы куда более терпимо. Ну не понимаю я почему столько граблей, чтобы элементарно вытащить smart дисков. Как появится информация, что означает каждое поле отпишусь сюда.
Обновление 12.05.2016
Товарищи, хочу вас обрадовать, что появилась шикарная утилита, способная в Windows показывать smart состояние дисков, находящихся в рейде. Называется она Hard Disk Sentinel
Скачиваем либо установщик, либо portble версию. Запускаем HDSentinel.exe
В системном три у вас появятся значки состояния ваших жестких дисков.
Для примера покажу свой контроллер SMC2008-IR, как видите у меня там 4 диска в 10 рейде.
Как видим, у моего 4 диска появились bad sectors
Переходим на вкладку S.M.A.R.T и видим, большинство счетчиков.
Для примера я в LSI утилите ProductID, так же его видит и HDSentinel
еще HDSentinel удобно отображает загрузку диска в реальном времени.
Можно в сети установить серверную версию, но она платная. Для linux платформ, так же есть своя сборка.
Популярные Похожие записи:
6 Responses to Как мониторить SMART дисков, SSD в RAID на ESXI 5.5
# esxcli storage core device list
mpx.vmhba1:C0:T0:L0
Display Name: Local VMware Disk (mpx.vmhba1:C0:T0:L0)
Has Settable Display Name: false
Size: 476908
Device Type: Direct-Access
Multipath Plugin: NMP
Devfs Path: /vmfs/devices/disks/mpx.vmhba1:C0:T0:L0
Vendor: VMware
Model: Block device
Revision: 1.0
SCSI Level: 2
Is Pseudo: false
Status: on
Is RDM Capable: false
Is Local: true
Is Removable: false
Is SSD: false
Is Offline: false
Is Perennially Reserved: false
Queue Full Sample Size: 0
Queue Full Threshold: 0
Thin Provisioning Status: unknown
Attached Filters:
VAAI Status: unsupported
Other UIDs: vml.0000000000766d686261313a303a30
Is Shared Clusterwide: false
Is Local SAS Device: false
Is SAS: false
Is USB: false
Is Boot USB Device: false
Is Boot Device: true
No of outstanding IOs with competing worlds: 32
Сервер HP Proliant ML350 G5 — есть вариант увидеть SMART таким образом или в моем случае лучше юзать тулзу hpssacli?
Добрый день, hpssacli вам тоже покажет только статус ок или нет, выше есть скрин как выдает smart strocli, но это не читабельно. Единственное, это можно либо скрипт запулить который будет вытаскивать значение количества ошибок, либо настроить мониторинг через MSM отправка сообщений, либо отправка сообщений в vcenter по состоянию дисков, vmvare от туда число ошибок дергает и вам показывает. Я честно не понимаю почему до сих пор LSI не реализовало данную вещь. Если у вас что получится, просьба тоже написать поделиться:)
У меня такой же контроллер, но в MSM не видно дисков не подскажите как устранить данную проблему?
OS: 2008 R2
Мат. плата: Suermicro X8DA6 ( https://www.supermicro.nl/products/motherboard/QPI/5500/X8DA6.cfm )
MSM: 12.05.03
С большой долей вероятности у вас стоят не те драйвера или не та версия SMIS провайдера
Правда ли SSD надёжнее, чем HDD?
В серии статей SSD 101 мы рассмотрели SSD со всех сторон. А теперь проверим главный аргумент фанатов SSD — что эти устройства выходят из строя гораздо реже, чем старые добрые HDD. Они обычно объясняют, что в SSD нет движущихся частей, и предъявляют документы от производителей с мутными расчётами среднего времени до отказа (MTBF). Всё это хорошо для рекламы, но мы предпочитаем реальную статистику частоты отказов.
Что такое отказ для SSD и HDD?
В своих ежеквартальных отчётах Drive Stats мы определяем отказ диска или как реактивный (диск не работает), или как проактивный (мы считаем, что отказ неизбежен). В случае HDD мы определяем проактивный отказ по специфической статистике SMART, которую сообщает сам диск и которую мы отслеживаем.
SMART, или S.M.A.R.T., расшифровывается как Self-monitoring, Analysis, and Reporting Technology и представляет собой систему мониторинга, встроенную в HDD и SDD. Основная функция — сообщать различные показатели, связанные с надёжностью диска, для предсказания отказов. Backblaze каждый день записывает атрибуты SMART всех работающих дисков.
То же самое для SSD. Различные модели сообщают разные показатели SMART, но некоторые совпадают. На сегодняшний день для SSD мы регистрируем 31 атрибут SMART-статистики. 25 из них перечислены ниже.
# | Description | # | Description |
---|---|---|---|
1 | Read Error Rate | 194 | Temperature Celsius |
5 | Reallocated Sectors Count | 195 | Hardware ECC Recovered |
9 | Power-on Hours | 198 | Uncorrectable Sector Count |
12 | Power Cycle Count | 199 | UltraDMA CRC Error Count |
13 | Soft Read Error Rate | 201 | Soft Read Error Rate |
173 | SSD Wear Leveling Count | 202 | Data Address Mark Errors |
174 | Unexpected Power Loss Count | 231 | Life Left |
177 | Wear Range Delta | 232 | Endurance Remaining |
179 | Used Reserved Block Count Total | 233 | Media Wearout Indicator |
180 | Unused Reserved Block Count Total | 235 | Good Block Count |
181 | Program Fail Count Total | 241 | Total LBAs Written |
182 | Erase Fail Count | 242 | Total LBAs Read |
192 | Unsafe Shutdown Count |
Оставшиеся шесть (16, 17, 168, 170, 218 и 245) мы не можем найти. Пожалуйста, напишите в комментариях, если у вас есть информация по отсутствующим атрибутам.
Мы только начинаем использовать статистику SMART для предупреждения отказов SSD. Многие атрибуты зависят от модели диска или производителя. Кроме того, у нас было пока мало отказов SSD, как вы увидите ниже. Это ограничивает количество данных для исследования. Так что в реальности мы пока не смогли предсказать ни одного отказа.
Сравнение яблок с яблоками
В серверах хранения данных в качестве загрузочных дисков работают и SSD, и HDD. В нашем случае называть их загрузочными неверно, поскольку они также хранят различные логи и т. д. Другими словами, регулярно читают, записывают и удаляют файлы, а не только выполняют загрузку сервера.
Итак, у нас две группы дисков — SSD и HDD — которые выполняют одинаковые функции, имеют одинаковую рабочую нагрузку и работают в одинаковых условиях в течение долгого времени. Естественно, мы решили сравнить частоту отказов загрузочных дисков SSD и HDD. Ниже приведены показатели отказов за весь срок службы для каждой группы по состоянию на II кв. 2021 года.
Годовая частота сбоев (AFR)
Количество дисков | Средний возраст (мес.) | Дней работы | Всего сбоев | AFR | |
---|---|---|---|---|---|
SSD | 1666 | 14,2 | 591 501 | 17 | 1,05% |
HDD | 1607 | 52,4 | 3 523 610 | 619 | 6,41% |
Загрузочные диски. Отчётный период: апрель 2013 — июнь 2021
SSD победили… Подождите, не так быстро!
Всё понятно, SSD победили. Можно положить HDD на полку или на пол как ограничитель для двери. Но погодите, давайте сначала учтём несколько моментов, которые не вошли в таблицу.
Другим фактором является количество дней, сколько диски каждой группы проработали без сбоев. Большой разброс в количестве дней работы приводит к значительной разнице в доверительных интервалах двух групп, поскольку существенно различается количество наблюдений (т.е. дней работы).
Чтобы провести более точное сравнение, попробуем привести к общему знаменателю средний возраст и количество дней работы для SSD и HDD. Для этого можем перенестись назад во времени, когда группа HDD соответствовала группе SSD из II кв. 2021 года по среднему возрасту и количеству дней работы. Это позволит сравнить группы в один и тот же период жизненного цикла.
Взяв данные по HDD за IV кв. 2016 года, мы смогли сделать следующее сравнение.
Годовая частота сбоев (AFR)
Количество дисков | Средний возраст (мес.) | Дней работы | Всего сбоев | AFR | |
---|---|---|---|---|---|
SSD на II кв. 2021 | 1666 | 14,2 | 591 501 | 17 | 1,05% |
HDD на IV кв. 2016 | 1297 | 14,3 | 659 526 | 25 | 1,38% |
Загрузочные диски. Отчётный период: апрель 2013 — указанный период
Неожиданно разница в AFR оказалась не такой уж большой. На самом деле статистика каждой группы находится в пределах 95%-ного доверительного интервала другой группы. Окно довольно широкое (плюс-минус 0,5%) из-за относительно небольшого количества дней работы накопителей.
Что же в итоге? Мы получили некоторые свидетельства, что в начале работы (в среднем до 14 месяцев в данном случае) SSD выходят из строя реже, но не намного. Но вы же покупаете диск не на 14 месяцев, а на годы. Что мы знаем об этом?
Частота сбоев со временем
У нас есть данные по загрузочным HDD с 2013 года и по загрузочным SSD с 2018 года. На диаграмме показан Lifetime AFR каждого типа дисков до II кв. 2021 года.
Как видно, с 2018 года частота сбоев загрузочных HDD стала расти. Тенденция сохранялась в 2019 и 2020 годах, а в 2021 году (пока что) остановилась. Очевидно, что с увеличением возраста HDD увеличивается и частота отказов.
Интересно сравнить кривые в первых четырёх точках. Для флота HDD пятый год (2018) знаменовал резкий рост частоты отказов. Ждёт ли та же участь SSD в их пятый год? Хотя мы можем ожидать некоторого увеличения AFR по мере старения SSD, но будет ли оно таким же резким, как в случае с HDD?
Итог: SSD или HDD?
Что же нам покупать: SSD или HDD? Учитывая то, что мы знаем на сегодняшний день, вряд ли можно использовать AFR как фактор при принятии решения. С учётом возраста и количества дней работы оба типа накопителей схожи, а разница недостаточна, чтобы оправдать дополнительные затраты на покупку SSD вместо HDD. На данном этапе лучше принимать решение на основе других факторов: стоимость, требуемая скорость, энергопотребление, требования к форм-фактору и так далее.
В ближайшие пару лет мы получим более полное представление об AFR для SSD. И тогда сможем решить, насколько велика разница в частоте отказов SSD и HDD. А сейчас мы не видим, чтобы она была значительной.