Вы здесь: Главная > Программы > Мониторинг Сети Pro > Мониторинг SMART параметров надежности HDD и SSD NVMe/SATA по сети

Мониторинг SMART параметров здоровья дисков SSD NVMe/SATA и HDD по сети

В современном мире потеря накопленной в электронном виде информации считается более существенной бедой, нежели потеря какого-либо материального имущества. Что тут говорить, но безвозвратная утрата данных может даже привести к потере целого бизнеса. Основная причина этой проблемы, как правило, заключается во внезапной поломке накопителей, на которых хранится эта информация. Однако в этом утверждении есть одна неточность. В большинстве случаев жёсткие диски компьютеров не выходят из строя внезапно – этому предшествует длительный процесс износа механики, магнитных дисков и накопления ошибок. Как и человек, жёсткий диск может длительное время болеть, прежде чем произойдёт полный отказ его функций. Задача системного администратора вовремя заметить негативные процессы, которые происходят внутри устройства, и заменить его, перенеся наиболее ценную информацию на "здоровые" носители.

Навигация по статье:
- Способы диагностики и контроля состояния и здоровья дисков
- Как настроить мониторинг состояния и здоровья дисков HDD и SSD
- Основные показатели для контроля здоровья дисков SMART для HDD
- Основные показатели контроля здоровья дисков SSD NVMe
- Основные показатели контроля здоровья дисков SATA SSD
- Альтернативный вариант мониторинга HDD SMART для большого числа ПК
- Видео-ролик о контроле ресурса SSD
- Заключение - Скачать программу контроля здоровья дисков SMART

Способы диагностики и контроля состояния и здоровья дисков

К счастью, производители жёстких дисков сами позаботились о средствах самодиагностики состояния устройства. Технология самотестирования, анализа состояния, и накопления статистических данных об ухудшении собственных характеристик получила название S.M.A.R.T. (Self-Monitoring Analysis and Reporting Technology). Стандарты этой технологии были созданы еще в 1995 г. совместными усилиями ведущих производителей жестких дисков (HDD) и продолжают совершенствоваться в настоящее время. С самого первого момента запуска HDD постоянно отслеживает заданные параметры своего состояния, которые носят название "атрибуты". Значения этих параметров запоминаются в самом накопителе, в специально выделенной части дисковой поверхности, доступной только внутренней микропрограмме. Атрибут представляет собой характеристику определенного состояния жесткого диска, которая изменяется в процессе эксплуатации, принимая числовое значение от максимального, установленного в момент изготовления данного устройства, до минимального, при достижении которого, работоспособность накопителя не гарантируется.

Одна из задач администратора заключается в периодическом наблюдении за критическими атрибутами, не допуская перехода их значений ниже или выше пороговых. Существует целый класс программ, которые считывают таблицу атрибутов S.M.A.R.T. и отображают её в понятном для человека виде. Но в процессе другой рутинной работы можно легко забыть об очередной проверке, тем самым упустив момент начала развития ситуации, угрожающей выходом из строя носителя: лавинный рост количества ошибок чтения/записи, позиционирования головки или числа перераспределённых секторов. Чтобы избежать этого, необходимо использовать системы мониторинга, которые в режиме 24/7/365 будут отслеживать заданные параметры жёстких дисков и немедленно оповещать оператора о нештатных ситуациях любыми доступными способами.

Как настроить мониторинг состояния и здоровья дисков HDD и SSD

Одной из таких систем мониторинга, которая умеет выполнять контроль параметров здоровья дисков S.M.A.R.T. HDD и SSD, является программа "10-Страйк: Мониторинг Сети Pro". Всё, что вам нужно сделать, это установить программу на одном из серверов, и агенты на всех других хостах, диски которых нуждаются во внимании. После установки программа сама сканирует сеть, находит все доступные хосты и помещает их в список мониторинга. Остаётся только создать для нужных хостов, где уже установлен агент (служба), специализированную проверку "S.M.A.R.T.", которая будет запускаться программой через заданный интервал времени (от нескольких секунд до часов). Полученные от агента данные анализируются ядром мониторинга, сравниваются с заданными пороговыми значениями, и в случае их превышения запускается сигнализация, которая оповещает о событии по SMS, email и другими способами.

Создать проверку S.M.A.R.T. для мониторинга какого-либо параметра состояния жёсткого диска очень просто. Нужно выполнить следующие шаги:

•  Установите программу "10-Страйк: Мониторинг Сети Pro" из дистрибутива.

•  Установите на хосты службу агента, которая по запросу будет получать значение параметров S.M.A.R.T. и передавать их по сети службе мониторинга.

•  Запустите программу и просканируйте сеть, либо добавьте нужные хосты вручную.

сканирование хостов в сети

•  В программе выделите хост в дереве слева и в его меню выберите «Добавить проверку».

добавление проверки

•  В окне параметров проверки укажите её тип – "S.M.A.R.T.", справа от поля «Диск» нажмите кнопку «…» и выберите из предоставленного списка нужный диск.

проверка SMART для HDD/SSD дисков

выбор диска для чтения SMART

•  Выберите, какой параметр вы хотите мониторить. Это может быть температура диска, а может и абсолютное значение любого другого доступного параметра. Нажмите кнопку «…» справа от поля «Значение атрибута (RAW)» и выберите его имя в списке.

выбор аттрибута SMART

 

•  Задайте логику срабатывания сигнализации. Например, «проверка прошла, если значение атрибута меньше 50».

•  Перейдите на следующие шаги: измените параметры запуска проверки или оставьте их как есть. Задайте параметры оповещения, сохраните изменения.

После добавления новой проверки она сразу начинает работать и собирать данные. Вы можете визуально наблюдать этот процесс, если переключите вкладку внизу окна на «Параметр мониторинга». В этом разделе будет отображаться график изменения заданного параметра (температуры, например).

график температуры жесткого диска

 

Основные показатели для контроля здоровья дисков SMART для HDD

Ниже приведён список наиболее важных атрибутов жестких дисков, значения которых нуждаются в контроле. Заметьте, что не все атрибуты могут присутствовать у ваших устройств. К тому же, набор HDD и SSD-накопителей может сильно отличаться. Ниже приведен список основных параметров SMART для жестких дисков (HDD).

· #01 Raw Read Error Rate — частота ошибок при чтении данных с диска, происхождение которых обусловлено аппаратной частью диска.

· #03 Spin-Up Time — время раскрутки пакета пластин из состояния покоя до рабочей скорости. Растет при износе механики (повышенное трение в подшипнике и т.п.), также может свидетельствовать о некачественном питании (например, просадке напряжения при старте диска).

· #05 Reallocated Sectors Count — число операций переназначения секторов. Когда диск обнаруживает ошибку чтения/записи, он помечает сектор переназначенным и переносит данные в резервную область. Поле Raw Value атрибута содержит общее количество переназначенных секторов. Чем оно больше, тем хуже состояние поверхности диска.

· #07 Seek Error Rate — частота ошибок при позиционировании блока магнитных головок (БМГ). Рост этого атрибута свидетельствует о низком качестве поверхности или о поврежденной механике накопителя. Также может повлиять перегрев и внешние вибрации (например, от соседних дисков в корзине).

· #10 Spin-Up Retry Count — число повторных попыток раскрутки дисков до рабочей скорости в случае, если первая попытка была неудачной. Если значение атрибута растет, то велика вероятность проблем с механикой.

· #196 Reallocation Event Count — число операций переназначения. В поле Raw Value атрибута хранится общее число попыток переноса информации со сбойных секторов в резервную область диска (она, как правило, не слишком велика — несколько тысяч секторов). Учитываются как успешные, так и неудачные операции.

· #197 Current Pending Sector Count — текущее число нестабильных секторов. Здесь хранится число секторов, являющихся кандидатами на замену. Они не были еще определены как плохие, но считывание с них происходит с затруднениями (например, не с первого раза). Если «подозрительный» сектор будет в дальнейшем считываться успешно, то он исключается из числа кандидатов. В случае же повторных ошибочных чтений накопитель попытается восстановить его и выполнить ремап.

· #198 Uncorrectable Sector Count — число секторов, при чтении которых возникают неисправимые (внутренними средствами) ошибки. Рост этого атрибута указывает на серьезные дефекты поверхности или на проблемы с механикой накопителя.

· #220 Disk Shift — сдвиг пакета пластин относительно оси шпинделя. В основном возникает из-за сильного удара или падения диска. При сильном росте атрибута диск гарантированно выходит из строя.

 

Основные показатели контроля здоровья дисков для SSD NVMe

Набор параметров S.M.A.R.T. для NVMe SSD-дисков отличается от ATA-дисков. В большинстве случаев это набор готовых показателей, без указания пороговых и наихудших значений. Вот пример SMART-аттрибутов для SSD M.2 накопителя WD Blue SN500:

critical_warning: 0
temperature: 39
available_spare: 100
available_spare_threshold: 10
percentage_used: 1
data_units_read: 13733602
data_units_written: 14396473
host_reads: 365745477
host_writes: 391133456
controller_busy_time: 836
power_cycles: 1419
power_on_hours: 4612
unsafe_shutdowns: 13
media_errors: 0
num_err_log_entries: 1
warning_temp_time: 0
critical_comp_time: 0

Среди этих параметров наиболее интересными являются:

critical_warning

Параметр, сигнализирующий о состоянии диска:

  • 0 — с диском всё хорошо,
  • 1 — Ресурс носителя ниже порогового значения
  • 2 — Температура превысила пороговое значение
  • 4 — Надежность снижается из-за внутренних ошибок
  • 8 — Носитель переведен в режим только для чтения
  • 16 — Ошибка системы резервного копирования энергозависимой памяти

temperature

Температура в Цельсиях (иногда может быть в Кельвинах — нужно обращать на это внимание). Постоянные перегревы SSD могут привести к быстрому выходу его из строя, поэтому необходимо отслеживать этот параметр.

percentage_used

Израсходованный ресурс SSD в процентах. Как только этот параметр достигнет 100%, это будет означать, что жизненный цикл SSD завершён и диск перейдёт в режим для чтения (заблокируется). Это очень важный параметр, который нуждается в мониторинге. Задача администратора — заблаговременно отследить те диски, остаток ресурса которых приближается к максимальному значению, и заменить их.

media_errors

Количество случаев, когда контроллер обнаружил неустранимую ошибку целостности данных. Если значение этого параметра постоянно растёт, следует подумать о замене SSD на новый.

num_err_log_entries

Количество записей журнала с информацией об ошибках за весь срок службы контроллера. Как и в предыдущем случае, следует обращать внимание на рост этого параметра.

Вы можете легко настроить мониторинг параметра percentage_used для контроля оставшегося ресурса NVMe SSD а также другие параметры здоровья диска при помощи программы 10-Страйк: Мониторинг Сети Pro.

 

Основные показатели контроля здоровья дисков для SATA SSD

Здоровье SSD-дисков, выпущенных до появления протокола обмена NVMe, также можно мониторить. Такие диски могут выдавать значения показателя типа «общее количество записанных секторов LBA» (Total LBA Written). Этот счетчик показывает сколько секторов по 512 байт было записано на диск за всю историю его работы. Возможны варианты:

241 - Total LBA Written (всего записано LBA) - общее количество секторов по 512 байт, записанных за весь срок службы устройства.

или

175 - Host_Writes_MiB - сколько всего было записано МБ на диск.

Пороговое значение по объему записи на диск за срок его службы (или endurance lifespan) вы можете найти в документации на SSD-диск на сайте производителя или в инструкции. Его обычно измеряют в терабайтах (ТБ) или в записанных терабайтах (по-английски это TB Written или TBW). Типовые значения для современных дисков составляют от 40 (для моделей возрастом от 5-10 лет) до нескольких сотен ТБ (для современных дисков).

С помощью нашей программы (по инструкции, размещенной выше) вы можете настроить мониторинг этих параметров и задать критические значения объема записи для диска в процентах, после выхода за которые, программа вас оповестит. Вы также можете отображать и наблюдать текущие значения записанных объемов в процентах от дозволенного максимума на прямоугольных индикаторах на карте сети.

Вы можете проверять и другие аттрибуты, например, рост числа ошибок. Набор получаемых параметров с диска вы увидите в окне настройки SMART-проверки в программе.

Вы можете легко настроить мониторинг TBW для контроля оставшегося ресурса SATA SSD а также другие параметры при помощи программы 10-Страйк: Мониторинг Сети Pro. При настройке проверки нужно указать общий ресурс диска с сайта производителя. Программа будет считывать текущий показатель объема записи и сравнивать с макмимальным значением, вычисляя остаточный ресурс диска.

мониторинг SATA SSD здоровья диска SMART

 

Альтернативный вариант мониторинга HDD SMART для большого числа ПК

Помимо программы "10-Страйк: Мониторинг Сети Pro" ещё одна наша программа умеет мониторить HDD SMART на компьютерах по сети - это "10-Страйк: Инвентаризация Компьютеров". Разница в этих двух решениях состоит в том, что в Мониторинге Сети вам надо создавать все проверки вручную для каждого диска. Облегчить ситуацию и сократить время настройки ПО можно копированием проверки SMART с одного хоста на другие. В Инвентаризации же если вы нашли все компьютеры в сети и настроили опрос информации с них (программа сканирует установленное "железо" и ПО c ПК через WMI удалённо по сети), то мониторинг здоровья и температуры жёстких дисков будет выполняться автоматически "бонусом". Программа будет выдавать оповещения об ошибках на экран, либо можно настроить отправку email администратору.

Правда программа инвентаризвации не умеет мониторить SSD, а пользуется сбором информации SMART по WMI удалённо и в этом способе поддерживается только HDD SMART. Внизу мы собрали отличия этих двух программ для мониторинга SMART в таблицу, чтобы вам было проще решить, какое решение подойдет вам лучше.

Функции 10-Страйк: Мониторинг Сети Pro 10-Страйк: Инвентаризация Компьютеров
Мониторинг SMART HDD без установки Агента на удалённые ПК (по WMI)
-
+
Автоматический мониторинг SMART здоровья и температуры HDD на всех ПК в сети без настройки проверки каждого диска
-
+
Мониторинг здоровья и температуры SMART HDD
+
+
Мониторинг здоровья и температуры SMART SSD SATA и NVMe
+
-

Т.е. если вы хотите ограничиться базовым мониторингом здоровья и температуры HDD на ПК в сети без долгих настроек, можете воспользоваться программой ИК. Если же хотите детально мониторить определённые аттрибуты SMART или у вас диски SSD, используйте МСP.

 

Видео-ролик

Мы также создали короткий видео-ролик чтобы просто и быстро показать вам как работает мониторинг SSD SMART, можете посмотреть его.

 

Заключение

Мониторинг S.M.A.R.T.-параметров жёсткого диска или SSD не стоит считать панацеей от всех проблем с ним. Этот механизм даёт лишь шанс вовремя заметить динамику ухудшения некоторых критических параметров и принять решение о замене носителя, пока не произошла потеря данных или работа компьютера заблокировалась. В совокупности с хорошо отлаженной схемой резервного копирования можно минимизировать потери в результате выхода диска из строя в самый неподходящий момент, и избежать больших затрат на попытку восстановления информации с него. И помните одно правило: хорошие показатели атрибутов S.M.A.R.T. не гарантируют, что с накопителем всё хорошо, но плохие показатели S.M.A.R.T. гарантированно свидетельствуют о проблемах.

Для мониторинга показателей здоровья SMART (на HDD и SSD) мы рекомендуем программу "10-Страйк: Мониторинг Сети Pro". Этот инструмент на 100% разработан в России и содержится в реестре российского ПО. Если вам потребуется помощь при внедрении программы, специалисты "10-Strike Software" всегда помогут вам в настройке, быстро устранят недоработки и замечания. Цены на все продукты зафиксированы в рублях и их можно посмотреть на сайте.

 

Скачайте пробную 30-дневную версию без ограничений и попробуйте. Все компоненты установятся из одного файла.

Скачать программу

 

Внимание, акция! Действует скидка на эту программу до конца месяца!