Вы здесь: Главная > Программы > Мониторинг Сети Pro > Мониторинг параметров надежности жестких дисков S.M.A.R.T. по сети

Мониторинг параметров надежности жестких дисков S.M.A.R.T. по сети

В современном мире потеря накопленной в электронном виде информации считается более существенной бедой, нежели потеря какого-либо материального имущества. Что тут говорить, но безвозвратная утрата данных может даже привести к потере целого бизнеса. Основная причина этой проблемы, как правило, заключается во внезапной поломке накопителей, на которых хранится эта информация. Однако в этом утверждении есть одна неточность. В большинстве случаев жёсткие диски компьютеров не выходят из строя внезапно – этому предшествует длительный процесс износа механики, магнитных дисков и накопления ошибок. Как и человек, жёсткий диск может длительное время болеть, прежде чем произойдёт полный отказ его функций. Задача системного администратора вовремя заметить негативные процессы, которые происходят внутри устройства, и заменить его, перенеся наиболее ценную информацию на "здоровые" носители.

К счастью, производители жёстких дисков сами позаботились о средствах самодиагностики состояния устройства. Технология самотестирования, анализа состояния, и накопления статистических данных об ухудшении собственных характеристик получила название S.M.A.R.T. (Self-Monitoring Analysis and Reporting Technology). Стандарты этой технологии были созданы еще в 1995 г. совместными усилиями ведущих производителей жестких дисков (HDD) и продолжают совершенствоваться в настоящее время. С самого первого момента запуска HDD постоянно отслеживает заданные параметры своего состояния, которые носят название "атрибуты". Значения этих параметров запоминаются в самом накопителе, в специально выделенной части дисковой поверхности, доступной только внутренней микропрограмме. Атрибут представляет собой характеристику определенного состояния жесткого диска, которая изменяется в процессе эксплуатации, принимая числовое значение от максимального, установленного в момент изготовления данного устройства, до минимального, при достижении которого, работоспособность накопителя не гарантируется.

Одна из задач администратора заключается в периодическом наблюдении за критическими атрибутами, не допуская перехода их значений ниже или выше пороговых. Существует целый класс программ, которые считывают таблицу атрибутов S.M.A.R.T. и отображают её в понятном для человека виде. Но в процессе другой рутинной работы можно легко забыть об очередной проверке, тем самым упустив момент начала развития ситуации, угрожающей выходом из строя носителя: лавинный рост количества ошибок чтения/записи, позиционирования головки или числа перераспределённых секторов. Чтобы избежать этого, необходимо использовать системы мониторинга, которые в режиме 24/7/365 будут отслеживать заданные параметры жёстких дисков и немедленно оповещать оператора о нештатных ситуациях любыми доступными способами.

Одной из таких систем мониторинга, которая умеет выполнять мониторинг параметров S.M.A.R.T. HDD, является программа "10-Страйк: Мониторинг Сети Pro". Всё, что вам нужно сделать, это установить программу на одном из серверов, и агенты на всех других хостах, диски которых нуждаются во внимании. После установки программа сама сканирует сеть, находит все доступные хосты и помещает их в список мониторинга. Остаётся только создать для нужных хостов, где уже установлен агент (служба), специализированную проверку "S.M.A.R.T.", которая будет запускаться программой через заданный интервал времени (от нескольких секунд до часов). Полученные от агента данные анализируются ядром мониторинга, сравниваются с заданными пороговыми значениями, и в случае их превышения запускается сигнализация, которая оповещает о событии по SMS, email и другими способами.

Создать проверку S.M.A.R.T. для мониторинга какого-либо параметра состояния жёсткого диска очень просто. Нужно выполнить следующие шаги:

 

•  Установите программу "10-Страйк: Мониторинг Сети Pro" из дистрибутива.

•  Установите на хосты службу агента, которая по запросу будет получать значение параметров S.M.A.R.T. и передавать их по сети службе мониторинга.

•  Запустите программу и просканируйте сеть, либо добавьте нужные хосты вручную.

•  В программе выделите хост в дереве слева и в его меню выберите «Добавить проверку».

•  В окне параметров проверки укажите её тип – "S.M.A.R.T.", справа от поля «Диск» нажмите кнопку «…» и выберите из предоставленного списка нужный диск.

•  Выберите, какой параметр вы хотите мониторить. Это может быть температура диска, а может и абсолютное значение любого другого доступного параметра. Нажмите кнопку «…» справа от поля «Значение атрибута (RAW)» и выберите его имя в списке.

 

•  Задайте логику срабатывания сигнализации. Например, «проверка прошла, если значение атрибута меньше 50».

•  Перейдите на следующие шаги: измените параметры запуска проверки или оставьте их как есть. Задайте параметры оповещения, сохраните изменения.

После добавления новой проверки она сразу начинает работать и собирать данные. Вы можете визуально наблюдать этот процесс, если переключите вкладку внизу окна на «Параметр мониторинга». В этом разделе будет отображаться график изменения заданного параметра (температуры, например).

график температуры жесткого диска

Ниже приведён список наиболее важных атрибутов, значения которых нуждаются в контроле. Заметьте, что не все атрибуты могут присутствовать у ваших устройств. К тому же, набор HDD и SSD-накопителей может сильно отличаться.

· #01 Raw Read Error Rate — частота ошибок при чтении данных с диска, происхождение которых обусловлено аппаратной частью диска.

· #03 Spin-Up Time — время раскрутки пакета пластин из состояния покоя до рабочей скорости. Растет при износе механики (повышенное трение в подшипнике и т.п.), также может свидетельствовать о некачественном питании (например, просадке напряжения при старте диска).

· #05 Reallocated Sectors Count — число операций переназначения секторов. Когда диск обнаруживает ошибку чтения/записи, он помечает сектор переназначенным и переносит данные в резервную область. Поле Raw Value атрибута содержит общее количество переназначенных секторов. Чем оно больше, тем хуже состояние поверхности диска.

· #07 Seek Error Rate — частота ошибок при позиционировании блока магнитных головок (БМГ). Рост этого атрибута свидетельствует о низком качестве поверхности или о поврежденной механике накопителя. Также может повлиять перегрев и внешние вибрации (например, от соседних дисков в корзине).

· #10 Spin-Up Retry Count — число повторных попыток раскрутки дисков до рабочей скорости в случае, если первая попытка была неудачной. Если значение атрибута растет, то велика вероятность проблем с механикой.

· #196 Reallocation Event Count — число операций переназначения. В поле Raw Value атрибута хранится общее число попыток переноса информации со сбойных секторов в резервную область диска (она, как правило, не слишком велика — несколько тысяч секторов). Учитываются как успешные, так и неудачные операции.

· #197 Current Pending Sector Count — текущее число нестабильных секторов. Здесь хранится число секторов, являющихся кандидатами на замену. Они не были еще определены как плохие, но считывание с них происходит с затруднениями (например, не с первого раза). Если «подозрительный» сектор будет в дальнейшем считываться успешно, то он исключается из числа кандидатов. В случае же повторных ошибочных чтений накопитель попытается восстановить его и выполнить ремап.

· #198 Uncorrectable Sector Count — число секторов, при чтении которых возникают неисправимые (внутренними средствами) ошибки. Рост этого атрибута указывает на серьезные дефекты поверхности или на проблемы с механикой накопителя.

· #220 Disk Shift — сдвиг пакета пластин относительно оси шпинделя. В основном возникает из-за сильного удара или падения диска. При сильном росте атрибута диск гарантированно выходит из строя.

А в этой статье можно найти подробное описание каждого из атрибутов.

Мониторинг S.M.A.R.T.-параметров жёсткого диска не стоит считать панацеей от всех проблем с ним. Этот механизм даёт лишь шанс вовремя заметить динамику ухудшения некоторых критических параметров и принять решение о замене носителя, пока не произошла потеря данных. В совокупности с хорошо отлаженной схемой резервного копирования можно минимизировать потери в результате выхода жёсткого диска из строя в самый неподходящий момент, и избежать больших затрат на попытку восстановления информации с него. И помните одно правило: хорошие показатели атрибутов S.M.A.R.T. не гарантируют, что с накопителем всё хорошо, но плохие показатели S.M.A.R.T. гарантированно свидетельствуют о проблемах.

Программа на 100% разработана в России. Если вам потребуется помощь при внедрении программы, специалисты "10-Strike Software" всегда помогут вам в настройке, быстро устранят недоработки и замечания. Цены на все продукты зафиксированы в рублях и их можно посмотреть на сайте.

Скачайте пробную 30-дневную версию без ограничений и попробуйте. Все компоненты установятся из одного файла.

Скачать программу

Внимание, акция! Действует скидка 40% на эту программу до конца месяца!