Reserved block count ssd что это
Правда ли SSD надёжнее, чем HDD?
В серии статей SSD 101 мы рассмотрели SSD со всех сторон. А теперь проверим главный аргумент фанатов SSD — что эти устройства выходят из строя гораздо реже, чем старые добрые HDD. Они обычно объясняют, что в SSD нет движущихся частей, и предъявляют документы от производителей с мутными расчётами среднего времени до отказа (MTBF). Всё это хорошо для рекламы, но мы предпочитаем реальную статистику частоты отказов.
Что такое отказ для SSD и HDD?
В своих ежеквартальных отчётах Drive Stats мы определяем отказ диска или как реактивный (диск не работает), или как проактивный (мы считаем, что отказ неизбежен). В случае HDD мы определяем проактивный отказ по специфической статистике SMART, которую сообщает сам диск и которую мы отслеживаем.
SMART, или S.M.A.R.T., расшифровывается как Self-monitoring, Analysis, and Reporting Technology и представляет собой систему мониторинга, встроенную в HDD и SDD. Основная функция — сообщать различные показатели, связанные с надёжностью диска, для предсказания отказов. Backblaze каждый день записывает атрибуты SMART всех работающих дисков.
То же самое для SSD. Различные модели сообщают разные показатели SMART, но некоторые совпадают. На сегодняшний день для SSD мы регистрируем 31 атрибут SMART-статистики. 25 из них перечислены ниже.
# | Description | # | Description |
---|---|---|---|
1 | Read Error Rate | 194 | Temperature Celsius |
5 | Reallocated Sectors Count | 195 | Hardware ECC Recovered |
9 | Power-on Hours | 198 | Uncorrectable Sector Count |
12 | Power Cycle Count | 199 | UltraDMA CRC Error Count |
13 | Soft Read Error Rate | 201 | Soft Read Error Rate |
173 | SSD Wear Leveling Count | 202 | Data Address Mark Errors |
174 | Unexpected Power Loss Count | 231 | Life Left |
177 | Wear Range Delta | 232 | Endurance Remaining |
179 | Used Reserved Block Count Total | 233 | Media Wearout Indicator |
180 | Unused Reserved Block Count Total | 235 | Good Block Count |
181 | Program Fail Count Total | 241 | Total LBAs Written |
182 | Erase Fail Count | 242 | Total LBAs Read |
192 | Unsafe Shutdown Count |
Оставшиеся шесть (16, 17, 168, 170, 218 и 245) мы не можем найти. Пожалуйста, напишите в комментариях, если у вас есть информация по отсутствующим атрибутам.
Мы только начинаем использовать статистику SMART для предупреждения отказов SSD. Многие атрибуты зависят от модели диска или производителя. Кроме того, у нас было пока мало отказов SSD, как вы увидите ниже. Это ограничивает количество данных для исследования. Так что в реальности мы пока не смогли предсказать ни одного отказа.
Сравнение яблок с яблоками
В серверах хранения данных в качестве загрузочных дисков работают и SSD, и HDD. В нашем случае называть их загрузочными неверно, поскольку они также хранят различные логи и т. д. Другими словами, регулярно читают, записывают и удаляют файлы, а не только выполняют загрузку сервера.
Итак, у нас две группы дисков — SSD и HDD — которые выполняют одинаковые функции, имеют одинаковую рабочую нагрузку и работают в одинаковых условиях в течение долгого времени. Естественно, мы решили сравнить частоту отказов загрузочных дисков SSD и HDD. Ниже приведены показатели отказов за весь срок службы для каждой группы по состоянию на II кв. 2021 года.
Годовая частота сбоев (AFR)
Количество дисков | Средний возраст (мес.) | Дней работы | Всего сбоев | AFR | |
---|---|---|---|---|---|
SSD | 1666 | 14,2 | 591 501 | 17 | 1,05% |
HDD | 1607 | 52,4 | 3 523 610 | 619 | 6,41% |
Загрузочные диски. Отчётный период: апрель 2013 — июнь 2021
SSD победили… Подождите, не так быстро!
Всё понятно, SSD победили. Можно положить HDD на полку или на пол как ограничитель для двери. Но погодите, давайте сначала учтём несколько моментов, которые не вошли в таблицу.
Другим фактором является количество дней, сколько диски каждой группы проработали без сбоев. Большой разброс в количестве дней работы приводит к значительной разнице в доверительных интервалах двух групп, поскольку существенно различается количество наблюдений (т.е. дней работы).
Чтобы провести более точное сравнение, попробуем привести к общему знаменателю средний возраст и количество дней работы для SSD и HDD. Для этого можем перенестись назад во времени, когда группа HDD соответствовала группе SSD из II кв. 2021 года по среднему возрасту и количеству дней работы. Это позволит сравнить группы в один и тот же период жизненного цикла.
Взяв данные по HDD за IV кв. 2016 года, мы смогли сделать следующее сравнение.
Годовая частота сбоев (AFR)
Количество дисков | Средний возраст (мес.) | Дней работы | Всего сбоев | AFR | |
---|---|---|---|---|---|
SSD на II кв. 2021 | 1666 | 14,2 | 591 501 | 17 | 1,05% |
HDD на IV кв. 2016 | 1297 | 14,3 | 659 526 | 25 | 1,38% |
Загрузочные диски. Отчётный период: апрель 2013 — указанный период
Неожиданно разница в AFR оказалась не такой уж большой. На самом деле статистика каждой группы находится в пределах 95%-ного доверительного интервала другой группы. Окно довольно широкое (плюс-минус 0,5%) из-за относительно небольшого количества дней работы накопителей.
Что же в итоге? Мы получили некоторые свидетельства, что в начале работы (в среднем до 14 месяцев в данном случае) SSD выходят из строя реже, но не намного. Но вы же покупаете диск не на 14 месяцев, а на годы. Что мы знаем об этом?
Частота сбоев со временем
У нас есть данные по загрузочным HDD с 2013 года и по загрузочным SSD с 2018 года. На диаграмме показан Lifetime AFR каждого типа дисков до II кв. 2021 года.
Как видно, с 2018 года частота сбоев загрузочных HDD стала расти. Тенденция сохранялась в 2019 и 2020 годах, а в 2021 году (пока что) остановилась. Очевидно, что с увеличением возраста HDD увеличивается и частота отказов.
Интересно сравнить кривые в первых четырёх точках. Для флота HDD пятый год (2018) знаменовал резкий рост частоты отказов. Ждёт ли та же участь SSD в их пятый год? Хотя мы можем ожидать некоторого увеличения AFR по мере старения SSD, но будет ли оно таким же резким, как в случае с HDD?
Итог: SSD или HDD?
Что же нам покупать: SSD или HDD? Учитывая то, что мы знаем на сегодняшний день, вряд ли можно использовать AFR как фактор при принятии решения. С учётом возраста и количества дней работы оба типа накопителей схожи, а разница недостаточна, чтобы оправдать дополнительные затраты на покупку SSD вместо HDD. На данном этапе лучше принимать решение на основе других факторов: стоимость, требуемая скорость, энергопотребление, требования к форм-фактору и так далее.
В ближайшие пару лет мы получим более полное представление об AFR для SSD. И тогда сможем решить, насколько велика разница в частоте отказов SSD и HDD. А сейчас мы не видим, чтобы она была значительной.
Диагностика накопителей: описание параметров S.M.A.R.T
Содержание
Содержание
«Всем привет! Компьютер долго включается, издает треск и десять минут открывает браузер. Подскажите, в чем проблема?» — новички посылают такие SOS-сигналы на всех компьютерных форумах. Местные «специалисты» знают наперед, в чем проблема, поэтому сразу советуют проверить S.M.A.R.T. Однако проверить — это полдела. Чтобы правильно понять «наречие» винчестера, придется выучить несколько слов из его языка.
Компьютерный накопитель, как и любой другой компьютерный элемент с подвижным механизмом, склонен к износу. В винчестере чаще всего страдают механические элементы: двигатель, магнитные головки и пластины, покрытые диоксидом хрома. Эти части могут выйти из строя не только после исчерпания запаса прочности, но и из-за неправильных условий эксплуатации.
Например, шпиндель и подшипник скоростного диска чувствительны к температурному режиму: нагреваясь, металл расширяется, из-за чего подвижные элементы может заклинить во время работы. Жесткие диски требовательны к условиям хранения и механическим воздействиям: у них окисляются контакты, появляется пыль из-за нарушения герметичности и выходят из строя магнитные головки из-за ударов или тряски во время работы.
Все это касается физических показателей устройства. Но существует еще и неосязаемая часть накопителя, состояние которой определяется только системой самодиагностики диска. Этот параметр называется S.M.A.R.T.
Что такое S.M.A.R.T
Программные неполадки, проблемы с запуском, ошибки чтения и записи, битые и замененные секторы — это невидимая сторона жизни накопителя, за которой внимательно следит система самодиагностики.
S.M.A.R.T — это низкоуровневая система, которая ведет журнал работы устройства и следит за каждым действием накопителя. Можно сравнить ее с сервисной книжкой автомобиля, в которой мастер отмечает проделанные работы, пробег и другие важные данные. В процессе работы система S.M.A.R.T записывает важные показатели диска — например, количество ошибок чтения или записи, а также время раскрутки шпинделя или максимальное значение температуры.
Чтобы добраться до сервисной книжки диска, необходим специальный софт. Для этого существуют различные программы для диагностики накопителей. Мы будем работать с распространенной и понятной утилитой AIDA64. Утилита распространяется условно-бесплатно, поэтому установочный файл можно бесплатно загрузить с официального сайта.
Запускаем утилиту и попадаем на страницу с главными параметрами, необходимыми для диагностики. Чтобы добраться до нужного меню, необходимо перейти на вкладку «Хранение данных», затем открыть «SMART» и выбрать накопитель из списка:
Некоторые из параметров уже расшифрованы в удобный для пользователя формат. Это температура накопителя, число включений и общее время работы диска. Программа также автоматически считывает данные S.M.A.R.T и выдает оценку технического состояния винчестера — в данном случае все пункты имеют статус «ОК». Это «свежий» диск, поэтому все параметры находятся в пределах допустимого.
Пожалуй, здесь все предельно ясно. Но теперь попытаемся узнать количество ошибок чтения Raw Read Error Rate. Программа говорит, что их 51. Хотя нет, все-таки 200. Или 140? Нет, наверное 0. В этом и есть трудность понимания языка накопителя. Начинаем разбираться.
Как читать S.M.A.R.T
Программа диагностики диска, в первую очередь, создана для того, чтобы ее понимал компьютер. Поэтому обработка данных происходит в абстрактных «попугаях», а не в точных и понятных пользователю значениях. Например, компьютеру важно знать, достигал ли жесткий диск критического значения температуры за все время работы. Если да, то в сервисной книжке это отобразится в виде некоторого значения, по которому «железки» определят уровень критичности ситуации.
Система SMART построена вокруг пяти индикаторов, по которым можно определить состояние жесткого диска:
ID — идентификатор. Каждому значению в системе присваивается два атрибута — ID и описание. То, что указано в окошке «Описание», остается на совести разработчиков утилит — каждый называет так, как захочет. Значение в окне ID остается неизменным. Это и есть настоящее название пунктов в программе SMART, по которым стоит ориентироваться в первую очередь.
Описание — словесное название для ID. Например: «Spin-Up Time» или «Время раскрутки шпинделя». Используется разработчиками утилит для упрощения интерфейса.
Value (значение) — цифровое значение в абстрактных единицах указывает на текущее состояние диска. Например, сколько ошибок отловила система с момента запуска накопителя. Индикатор может принимать различные значения в течении всего срока службы накопителя. Сам по себе он не указывает на состояние диска и работает только в контексте со следующими значениями.
Worst (наихудшее) — значение, которое обозначает самый плохой результат Value за все время работы диска или с момента последнего запуска. Так же измеряется в неизвестных единицах и может изменяться от текущего к меньшему, но не наоборот. Индикатор представляет ценность только в тандеме с предыдущим и следующим индикатором.
Threshold (порог) — это критическая величина, при достижении которой накопитель считает, что он достиг максимального износа в определенной точке и исчерпал заложенный в него заводской ресурс. Как правило, диски, достигшие этого значения, считаются ненадежными и склонными к порче данных. Пороговое значение постоянно — его задает производитель на заводе.
RAW (данные) —значения Value в шестнадцатеричной или десятичной системах исчисления. Например, количество раскручиваний шпинделя в «разах» или общее время работы накопителя в минутах. Как правило, этот индикатор содержит большинство необходимых данных о работе диска и его состоянии. Хотя не всегда с помощью этого описания можно понять, насколько хорошо себя чувствует диск.
Чтобы понять принцип работы вышеперечисленных индикаторов, приведем пример. Допустим, существует значение Spin-Up Time — это время, за которое шпиндель успевает раскрутиться с нуля оборотов до рабочего значения (например, 7200 об/мин). В окошке RAW (данные) можно увидеть цифру 2383 — неизвестно, в каком измерении считаются эти данные и насколько хорошо для конкретной модели диска раскручиваться за какие-то 2383 (секунды, миллисекунды, минуты, часа).
Поэтому система ориентируется не по конкретным значениям, а по экстремумам Value, Worst и Threshold. Это работает следующим образом: в момент последнего включения диска, точнее, раскручивания шпинделя, диск подсчитал некоторое значение и записал его в колонку Value. Допустим, это условное число 180. При следующем включении диск «проспал» и раскручивался дольше обычного, поэтому Value получил значение «170». Это хуже, чем предыдущий результат, поэтому автоматика переносит значение в колонку Worst — наихудшее время раскрутки за весь срок службы накопителя. Теперь Worst будет иметь значение «170» до тех пор, пока диск не проспит еще один старт.
Теперь, чтобы понять, насколько значение «170» влияет на состояние диска, SMART сравнивает его со значением Threshold — минимальный уровень состояния конкретного показателя, при котором диск считается исправным. В нашем случае это «21» — то есть, до критических значений винчестеру из примера нужно добираться еще более 100 условных единиц. Если же устройство в какой-то момент достигнет этого значения, то при включении компьютера SMART оповестит об этом BIOS.
Таких «показателей» в программе SMART заложено много. Самые важные, которые пригодятся домашнему юзеру для диагностики винчестера в своей сборке или для проверки устройства при покупке на вторичном рынке, мы перечислили ниже в формате «ID» + «Описание».
Список атрибутов
01 Raw Read Error Rate — количество ошибок, возникших при чтении из-за аппаратных неполадок диска. Для некоторых моделей дисков этот атрибут может показывать запредельное количество ошибок, хотя они не являются критическим значением. Чтобы не путаться в попугаях RAW, лучше ориентироваться на три главных значения.
Чем меньше ошибок, тем лучше. В идеале — ноль.
03 Spin-Up Time — время раскрутки шпинделя до рабочих оборотов.
Чем быстрее раскручивается шпиндель, тем лучше — значит, двигатель и механическая часть в порядке.
04 Start/Stop Count — количество полных остановок и раскручиваний шпинделя. Для некоторых дисков этот атрибут также учитывает переход диска из режима энергосбережения в рабочее состояние.
При запуске диска из полностью выключенного состояния двигатель потребляет большое количество тока. В этот момент он и управляющая электроника становятся наиболее уязвимыми к поломкам. Чем чаще диск включается/выключается, тем выше вероятность того, что при холодном включении устройство выйдет из строя.
05 Reallocated Sectors Count — количество переназначенных секторов.
Магнитные пластины винчестера подвержены износу, поэтому со временем начинают «сыпаться». Это значит, что секторы, в которых хранится информация, перестают отвечать на запросы и считаются битыми. Автоматика диска их находит и переназначает на новые, которые находятся в резервной области пластины. Чем больше секторов переназначил диск, тем хуже.
07 Seek Error Rate — количество ошибок позиционирования магнитных головок.
Если этот атрибут содержит записи об ошибках, то можно подыскивать диску замену. Такие ошибки, как правило, указывают на состояние механики диска и поверхности пластин.
09 Power-On Time Count — общее количество времени наработки накопителя.
В зависимости от производителя может измеряться в секундах, минутах, часах. У каждой модели есть заводское максимальное значение наработки на отказ, поэтому можно ориентироваться по этому числу или по трем аргументам.
0A Spin-Up Retry Count — количество повторных попыток раскрутить шпиндель после неудачного запуска. Чем чаще шпиндель раскручивается со второго раза, тем хуже состояние механики диска.
0С Power Cycle Count — то же самое, что Start/Stop Count, обозначает количество раскручиваний и остановок шпинделя, а также учитывает количество полных включений/выключений устройства.
C1 Load/Unload Cycle — обозначает количество перемещений блока магнитных головок с парковочной зоны в рабочую и обратно.
Указывает на износ механики: чем больше, тем хуже. Условное значение в несколько тысяч таких перемещений ничего не значит — лучше ориентироваться по Value.
C2 Temperature — показывает текущую, минимальную и максимальную температуру диска.
C4 Reallocation Event Count — учитывает все попытки операций переназначения секторов.
Работает в паре с атрибутом «05 Reallocated Sectors Count»: когда диск находит поврежденный сектор, система пытается перенести его в резервную зону. Если в этом случае сектор на самом деле окажется поврежденным, то оба атрибута получат некоторое значение. Если при переносе сектор восстановил работоспособность, атрибут «05» не будет изменен, но запись попытки сделать ремаппинг будет выполнена в атрибут «C4».
C5 Current Pending Sector Count — количество секторов, которые стоят в очередь на переназначение в резервную область.
Если диск находит сбойный сектор во время работы, он заносит его в список, чтобы позже вернуться к операции ремаппинга. Это значение может изменяться в любую сторону. Если оно постоянно увеличивается, то стоит задуматься о состоянии диска. Возможно, резервная зона для переноса секторов уже закончилась.
C8 Write Error Rate — количество ошибок, возникших при записи информации в сектор.
Имеет то же значение, что и показатель ошибок чтения. Чем больше ошибок, тем хуже состояние поверхности пластин.
F0 Head flying hours — время, затраченное на позиционирование магнитных головок.
Чем быстрее перемещается блок головок, тем выше скорость работы накопителя и тем вероятнее тот факт, что механика диска исправна.
F1 Total Host Writes — общее количество записанных блоков.
F2 Total Host Reads — общее количество считанных блоков.
Последние два значения — это общий пробег накопителя. Измеряется в количестве сделанных или прочтенных записей. Текущее значение не несет полезной информации, лучше ориентироваться по Value и Threshold.
Выше перечислены только основные параметры, которые влияют непосредственно на механическую или программную часть накопителей. По этим основным показателям SMART можно определить состояние диска и хотя бы примерно понять, насколько долго и стабильно он проработает в сборке. Существуют еще десятки значений, которые уже не используются в современных дисках или появляются в моделях для узконаправленных систем, например, в серверах.
Если диск собрался в отпуск
SMART проверяет состояние накопителей во время включения компьютера, поэтому если система обнаружит критическое состояние по одному из атрибутов, она выдаст предупреждение. Наверняка пользователь заинтересуется возникшей ошибкой и начнет искать причину. И после проверки значений SMART с помощью утилиты окажется, что диск держит в заложниках семейные фотографии и при любом неаккуратном движении готов рассыпаться вместе с дорогой информацией. Что делать?
Если же и это не помогло, то есть секретный способ восстановить ценные гигабайты в компьютере — идем в магазин и покупаем новый винчестер, а лучше — SSD-накопитель с большим объемом. Это быстрые, бесшумные и надежные устройства, которые будут служить верой и правдой, если знать нюансы и избежать распространенных ошибок при выборе модели.