Введение
Когда мне понадобилось настроить мониторинг жестких дисков, в частности, SMART параметров в Zabbix, я сразу же нашел готовое решение на share.zabbix.com. Рекомендую туда заглядывать периодически в поисках интересных приемов для мониторинга.
В данном случае практически не пришлось ничего менять или допиливать. И скрипты, и шаблон готов к использованию в оригинальном исполнении. Расскажу подробно, как я на основе этой информации настраиваю мониторинг smart у себя.
Я буду работать на сервере CentOS 7, но в данном случае, как обычно с заббиксом, это не имеет принципиального значения. Все скрипты и шаблоны подойдут для практически любого дистрибутива linux. Если у вас еще нет своего сервера для мониторинга, то рекомендую свои материалы на эту тему:
- Установка CentOS 7.
- Настройка CentOS 7.
- Установка и настройка zabbix сервера.
То же самое на Debian 9, если предпочитаете его:
- Установка Debian 9.
- Базовая настройка Debian 9.
- Установка и настройка zabbix на debian.
Настраивать будем по этапам:
- Сначала настроим агент и все необходимые скрипты.
- Импортируем шаблон на сервер и применим к нужному хосту.
- Проверим полученные данные.
Приступим к настройке zabbix для наблюдения за смартом дисков.
У нас будет одна сложность, которая немного запутывает процесс настройки. Для версий 3.2 и ниже будут одни параметры и шаблон, а для 3.4 другие. Так как у меня есть обе версии серверов, мне придется рассмотреть настройку на обоих версиях.
Как пользоваться
1. Как проверить диск
При запуске, программа автоматически сканирует состояние носителей и выдает результат на экран. При желании, можно пересканировать диск. Для этого кликаем по Сервис — Пересканировать:
или надать F6.
2. Общее состояние носителя
После запуска откроется основное окно программы, в котором мы сразу увидим результирующее состояние диска и его температуру:
Если с диском обнаружены проблемы, состояние будет «Тревога». Для выяснения причин проблемы необходимо изучить состояние
Если установлено несколько дисков, мы можем переключаться между ними с помощью панели быстрого переключения (1), пункта меню «Диск» (2) или боковых стрелок (3):
3. S.M.A.R.T.
Данная информация также появляется в основном окне программы, под общим состоянием:
Значение полей:
- ID — номер атрибута в 16-ричном виде.
- Атрибут — название SMART-теста.
- Текущее — значение, которое выдает тест в данный момент.
- Наихудшее — крайнее значение, до которого опускался (поднимался) показатель когда либо.
- Порог — если до него дойдет текущее показание, это будет говорить о плохом состоянии носителя и необходимости его замены.
- RAW-значения — текущее значение атрибута в шестнадцатеричном виде.
Хорошая расшифровка атрибутов представлена на сайте ixbt.com. Так как в большинстве случаев информация по данным атрибутам встречаются на английском языке, программа позволяет отобразить S.M.A.R.T. на английском (при этом основной язык можно оставить русским). Для этого нажимаем Язык(Language) — S.M.A.R.T. по-английски:
В случае тревоги, очень часто смарт выдает предупреждение 05 Переназначенные сектора (или 05 Reallocated Sector Count / 05 Забракованные сектора / 05 Нестабильные сектора) — это означает, что были найдены битые сектора, данные которых были отправлены в резервные блоки. Как правило, это временное решение, так как не намагниченные области будут расползаться по диску. В данном случае, лучше всего скопировать данные на сменный носитель и заменить диск.
4. Как лечить
Важно понимать, что тревоги, показанные данной программой, как правило, являются необратимыми физическими повреждениями носителя. Например, переназначенные сектора — это часть битых кластеров, перенесенных в резервную область диска
Носитель будет продолжать работать, но количество ненамагниченных областей будет увеличиваться и, в один прекрасный момент, можно будет потерять все данные.
В случае превышения температурных показателей необходимо проверить систему охлаждения компьютера, особенно, работающую на выдув горячего воздуха из корпуса.
5. Настройка автозапуска
Чтобы постоянно видеть состояние носителя, хорошей идеей будет добавить утилиту в автозапуск Windows. Открываем программу — кликаем по Сервис — Автозапуск:
6. Настройка уведомлений
Для своевременного получения информации о возникновения проблемы с носителем в программе предусмотрены различные уведомления. Для их настройки кликаем по Сервис — Особенности уведомлений:
По умолчанию, программа издаст звуковой сигнал. Также можно настроить почтовое уведомление.
7. Скрытие серийного номера
Эта возможность будет удобной для создания скриншота. Для этого кликаем по Сервис — Скрыть серийный номер:
В основном окне программы серийный номер будет закрыт звездочками:
Как проверить жесткий диск на ошибки через командную строку
Для проверки жесткого диска и его секторов на ошибки с использованием командной строки, ее для начала потребуется запустить, причем от имени Администратора. В Windows 8.1 и 10 вы можете сделать это, кликнув правой кнопкой мыши кнопке «Пуск» и выбрав пункт «Командная строка (администратор)». Другие способы и для других версий ОС: Как запустить командную строку от имени администратора.
В командной строке следует ввести команду chkdsk буква_диска: параметры_проверки (если ничего не понятно, читаем дальше). Примечание: Check Disk работает только с дисками, отформатированными в NTFS или FAT32.
Пример работающей команды может выглядеть следующим образом: chkdsk C: /F /R— в этой команде будет проверен на ошибки диск C, при этом ошибки будут исправляться автоматически (параметр F), будет проведена проверка поврежденных секторов и попытка восстановления информации (параметр R)
Внимание: проверка с использованными параметрами может занять несколько часов и как будто «зависать» в процессе, не выполняйте её, если не готовы ждать или если у вас ноутбук не подключен к розетке
В случае, если вы попробуете проверить жесткий диск, который в настоящее время используется системой, вы увидите сообщение об этом и предложение выполнить проверку после следующей перезагрузки компьютера (до загрузки ОС). Введите Y для того, чтобы согласиться или N, чтобы отказаться от проверки. Если при выполнении проверки вы видите сообщение о том, что CHKDSK недопустим для дисков RAW, то может помочь инструкция: Как исправить и восстановить диск RAW в Windows.
В остальных случаях сразу будет запущена проверка, по итогам которой вы получите статистику проверенных данных, найденных ошибок и поврежденных секторов (у вас она должна быть на русском языке, в отличие от моего скриншота).
Полный список доступных параметров и их описание вы можете получить, запустив chkdsk с вопросительным знаком в качестве параметра. Однако для простой проверки на ошибки, а также проверки секторов будет достаточно команды, приведенной в предыдущем абзаце.
В тех случаях, когда проверка обнаруживает ошибки на жестком диске или SSD, но не может их исправить, это может быть связано с тем, что работающая Windows или программы в настоящее время используют диск. В данной ситуации может помочь запуск оффлайн-сканирования диска: при этом диск «отключается» от системы, выполняется проверка, а затем снова монтируется в системе. Если же отключить его невозможно, то CHKDSK сможет выполнить проверку при следующей перезагрузке компьютера.
Чтобы выполнить оффлайн проверку диска и исправление ошибок на нем, в командной строке от имени администратора выполните команду: chkdsk C: /f /offlinescanandfix (где C: — буква проверяемого диска).
Если вы увидите сообщение о том, что нельзя выполнить команду CHKDSK, так как указанный том используется другим процессом, нажмите Y (да), Enter, закройте командную строку и перезагрузите компьютер. Проверка диска начнется автоматически при начале загрузки Windows 10, 8 или Windows 7.
Дополнительная информация: при желании, после проверки диска и загрузки Windows, вы можете просмотреть журнал проверки Check Disk с помощью просмотра событий (Win+R, ввести eventvwr.msc) в разделе Журналы Windows — Приложение, выполнив поиск (правый клик по «Приложение» — «Поиск») по ключевому слову Chkdsk.
Western Digital Dashboard
Данная утилита представляет собой бесплатное программное обеспечение, предназначенное для тестирования винчестеров, произведенных компанией Western Digital.
Панель мониторинга Western Digital (Western Digital Dashboard)
Она доступна как для установки через инсталлятор, так и через загрузочный файл ISO.
Western Digital Dashboard для Windows OS — это простой бесплатный инструмент. При извлечении и нажатии на исполняемый файл, программа открывает и проверяет систему, отображая физические диски и логические диски.
Программа предельно проста для использования и понятна даже новичку.
Получение SMART параметров жесткого диска через WMI класс
В Windows вы можете получить доступ к данным SMART дисков с помощью встроенных средств.
Информацию о состоянии дисков компьютера можно посмотреть через панель управления Control PanelSystem and SecuritySecurity and Maintenance (в этом же разделе есть информацию о состоянии службы Windows Error Reporting).
В моем случае с дисками все ОК, т.к. в разделе Drive Status указано:
.
Как мы уже говорили выше, Windows собирает информацию SMART с дисков и позволяет получать к ней доступ через WMI.
В BIOS/UEFI для дисков должна быть включена поддержка SMART.
Откройте командную строку с правами администратора и выполните следующую команду чтобы получить состояние всех дисков:
В данном случае с дисками все хорошо. Если нет – будет статус bad, unknown или caution.
Получить информацию о вероятном отказе жесткого диска можно через WMI класс MSStorageDriver_FailurePredictStatus:
Если контроллер диска не видит проблем с диском, значение PredictFailure должно быть равно FALSE.
Этот же класс можно опросить с помощью PowerShell:
Если значение PredictFailure = True, обратите внимание на причину ошибки, код которой указывается в параметре Reason. Расшифровка кода ошибки PredictFailure зависит от вендора
Информацию по некоторым кодам ошибок можно найти в wiki (https://en.wikipedia.org/wiki/S.M.A.R.T.#ATA_S.M.A.R.T._attributes).
Значения некоторых счетчиков надежности дисков можно получить с помощью следующего кода PowerShell:
Можно вывести информацию только об определенных характеристиках:
Также можно вывести общую информацию о дисках через Get-PhysicalDisk:
Ранее мы показывали как с помощью Get-PhysicalDisk получить информацию о неисправном диске в Windows Server S2D и заменить его:
Проверка средствами Windows
В ОС Windows есть интегрированные средства проверки и диагностики накопителей, применимые в том числе и для SSD. Многие пользователи знают об утилите CHKDSK и уже работали с ней. В случае с твердотельными накопителями она тоже может пригодиться, если есть вероятность проблем функционирования файловой системы.
Как проверить SSD на ошибки (действия выполняются по аналогии с диагностикой жёстких дисков HDD):
- запускаем Командную строку в режиме администратора;
- прописываем в терминале chkdsk C: /f и жмём Enter для выполнения (буква диска может быть заменена в зависимости от проверяемого раздела);
- по окончании процедуры пользователю будет доступен отчёт об обнаруженных и исправленных ошибках файловой системы.
В отличие от диагностики HDD, в команде не нужно применять поиск повреждённых секторов посредством параметра /r, поскольку в случае с твердотельными накопителями эту задачу выполняет контроллер SSD, который и переназначает сектора. По этой же причине не стоит также проводить поиск и исправление бэд-блоков на SSD посредством сторонних утилит.
Ещё одно средство из арсенала Windows подразумевает проверку накопителей, включая SSD, на основе данных самодиагностики SMART. Для выполнения задачи запускаем Командную строку (администратор) и задаём команду wmic diskdrive get status – после ввода жмём Enter. По итогам проверки появится информация о статусе подключённых дисков. Если по результатам сформированного на базе данных SMART отчёта проблем не выявлено, возле каждого диска будет стоять статус «Ок».
Как пользоваться журналом
Пользователь ПК может самостоятельно предотвратить многие сбои системы, для этого ему время от времени нужно просматривать раздел журнала «Приложения».
В этом разделе можно не только увидеть все программы и недавние изменения, связанные с ними, но и выбрать необходимое действие из предложенных.
В разделе «Приложения» вы увидите информацию обо всех происшествиях, степени их серьезности, типе, а также дате появления и сможете своевременно принять меры, чтобы не усугубить ситуацию.
Найти раздел «Приложения» несложно, он находится в меню журнала слева и называется «журнал приложений», как показано на скриншоте:
Программы для просмотра S.M.A.R.T.
Ряд производителей HDD выпускают также утилиты собственной разработки, предназначенные для получения информации от S.M.A.R.T. Они максимально адаптированы для работы с носителями определенных моделей. Но такой софт разработан не для всех винчестеров, да и его возможностей иногда оказывается недостаточно для всесторонней оценки состояния накопителя.
В качестве альтернативы можно использовать один из многочисленных программных продуктов, созданных сторонними разработчиками. Далее мы рассмотрим несколько хорошо зарекомендовавших себя приложений, предоставляющих доступ к S.M.A.R.T.
CrystalDiskInfo
CrystalDiskInfo – бесплатное приложение для просмотра параметров S.M.A.R.T. и оценки тенденции их изменений. Интерфейс утилиты полностью русифицирован (язык можно переключить с помощью меню). Температура винчестера или твердотельного накопителя показывается в системном трее (внизу экрана справа). Программа позволяет построить график, на котором будут наглядно отображены изменения, произошедшие за последний месяц с носителем информации. В случае необходимости приложение может быть запущено с задержкой. С помощью CrystalDiskInfo пользователю удобно изменить режим работы жесткого диска: установить максимально возможную скорость либо включить режим экономии электроэнергии (при этом также уменьшится издаваемый HDD шум). Помимо этого, разработчиками реализована поддержка внешних HDD и карманов, а также RAID-массивов Intel.
AIDA64
С помощью данного приложения можно получить информацию обо всех аппаратных компонентах системы и их технических характеристиках, а также выполнить их тестирование. Для просмотра информации о жестком диске следует перейти к разделу «Меню» в левой части окна и щелчком по треугольнику слева открыть подменю «Хранение данных». В его нижней части присутствует пункт «SMART», именно его и нужно выбрать. В правой секции окна вверху появится список всех установленных в системе жестких дисков. Остается выбрать только нужный накопитель и щелкнуть мышью по соответствующей строке. Сведения о выбранном диске будут отображены в секции ниже.
AIDA64 – условно-бесплатное приложение, период безвозмездного пользования которым ограничен 30 днями. Чтобы иметь возможность работать с ним и дальше, необходимо купить лицензию.
Victoria
Victoria – одна из лучших утилит для диагностики и восстановления неисправностей жестких дисков. Существует 2 версии программы: для запуска с загрузочного носителя и для работы непосредственно в среде Windows. В последнем случае для корректной работы приложения его следует запускать от имени администратора (соответствующую команду можно выбрать из его контекстного меню посредством щелчка по значку правой кнопкой мыши). Для загрузки с внешнего носителя потребуется предварительно создать загрузочный USB-диск или CD (DVD) и записать на него образ приложения.
После того, как Victoria запустится, на вкладке «Standard» в правой половине окна вверху выбираем тестируемый HDD и жмем на кнопку «Passport» для обновления сведений о нем. В самом низу окна отобразится информация о модели винчестера, его вместимости в дорожках и серийном номере. Затем можно переходить на вкладку “SMART”. Для считывания данных нажимаем на кнопку «Get SMART» в правой секции окна вверху.
При всех своих прочих достоинствах программа бесплатна. Также следует отметить, что ее новейшие версии поддерживают работу со S.M.A.R.T.-данными SSD-накопителей.
HDDScan
Отличительной особенностью утилиты является предельная простота в использовании. Достаточно выбрать из списка «Select Drive» жесткий диск и нажать на кнопку «S.M.A.R.T.», как на экране появится новое окно с подобной информацией о жестком диске. Разработчиками предусмотрена возможность менять некоторые из этих параметров (AAM, APM и др.). И за все это платить ничего не надо.
Speccy
С помощью бесплатного приложения Speccy с поддержкой русского языка можно получить сведения об установленных в компьютере комплектующих и их технических характеристиках. Предусмотрена возможность сохранения этой информации в виде подробного отчета.
Из меню в левой части экрана выбираем «Хранение данных», и в правой части окна приложения появятся сведения сразу обо всех установленных на машине пользователя жестких дисках. Если информация сразу не будет выведена на экран, надо подождать несколько секунд до завершения ее считывания.
Программы для проверки состояния жесткого диска
Все программы с нашей статьи Вы можете найти в таблице представленной ниже. Если же Вы хотите познакомиться с программами для проверки состояния жесткого диска Windows 10, тогда читайте статью дальше.
Программа | Лицензия | Русский язык | Smart анализ | Исправление ошибок |
Victoria HDD | Бесплатная | Нет | Да | Да |
HDDScan | Бесплатная | Нет | Да | Нет |
CrystalDiskInfo | Бесплатная | Есть | Нет | Нет |
Hetman Partition Recovery | Пробная | Есть | Да | Нет |
HD Tube Pro | Пробная | Нет | Нет | Нет |
Western Digital Data LifeGuard Diagnostic | Бесплатная | Нет | Да | Да |
Перед выбором программы рекомендуем обращать внимание на возможности программы. А также при необходимости смотрите на наличие русского языка интерфейса
Как использовать SMART для прогнозирования сбоя жесткого диска или SSD (необходимо проверить значения)
Не все атрибуты SMART имеют решающее значение для прогнозирования сбоев. Два вышеупомянутых исследования частоты отказов жестких дисков и других источников согласны с тем, что важная помощь в выявлении неисправных дисков:
- Reallocated sector counts. Перераспределение происходит, когда логика привода перераспределяет поврежденный сектор в результате повторяющихся программных или жестких ошибок в новый физический сектор из его резервных. Этот атрибут отражает количество случаев повторного отображения. Если его значение увеличивается, это указывает на износ жесткого диска или SSD.
- Current Pending Sector Count. Это подсчитывает «нестабильные» сектора, то есть поврежденные с ошибками чтения, которые ждут переотображения, своего рода «испытательная» система. Алгоритмы SMART имеют смешанные представления об этом конкретном атрибуте, поскольку иногда это неубедительно. Тем не менее, он может обеспечить более раннее предупреждение о возможных проблемах.
- Reported Uncorrectable Errors. Это количество ошибок, которые невозможно исправить, и это полезно, потому что кажется, что оно имеет одинаковое значение для всех производителей.
- Erase Fail Count. Этот является отличным показателем преждевременной смерти твердотельного накопителя. Он подсчитывает количество неудачных попыток удаления данных, а значение, которое увеличивается, говорит о том, что флеш-память внутри твердотельного накопителя близка к завершению.
- Wear Leveling Count. Это также особенно полезно для твердотельных накопителей. Производители устанавливают ожидаемый срок службы SSD в своих данных SMART. Нивелирование износа граф является оценка состояния здоровья вашего диска. Он рассчитывается с использованием алгоритма, который учитывает предопределенное ожидаемое время жизни и количество циклов (запись, стирание и т. д.), Которые каждый флэш-блок памяти может выполнить до достижения своего конца срока службы.
- Disk temperature является весьма обсуждаемым параметром. Тем не менее считается, что значения выше 60 ° C могут сократить срок службы жесткого диска или твердотельного накопителя и увеличить вероятность повреждения. Мы рекомендуем использовать вентилятор для понижения температуры ваших дисков и, возможно, продлить срок их службы.
Вышеупомянутые атрибуты SMART относительно легко интерпретировать. Если вы заметили увеличение их значений, возможно, ваш диск выходит из строя, поэтому лучше начать резервное копирование. Однако, хотя это и полезные показатели надежности привода, не забывайте, что они не являются надежными.
Предсказание в Windows PowerShell
Windows PowerShell – встроенный расширяемый инструмент автоматизации, предоставляемый компанией «Microsoft». Чтобы предсказать с его помощью возможные неполадки, нужно выполнить следующие шаги:
- Произвести запуск приложения «Windows PowerShell». В Windows 10 проще всего это сделать с помощью меню «Опытного пользователя». Процедура запуска такова: после щелчка правой кнопкой мыши по кнопке «Пуск» откройте это самое меню и выберите в нем команду «Windows PowerShell (администратор)».
- Введите в консоль команду Get-WmiObject -namespace root\wmi –class SStorageDriver_FailurePredictStatus.
- Нажмите «Enter».
- После того, как команда будет выполнена, на экране отобразится отчет в виде таблицы. В ней будет присутствовать информация обо всех установленных в компьютере дисках. Нас прежде всего интересует значение строки «PredictFailure». Если здесь стоит «FALSE», за судьбу жесткого диска можно пока не переживать. «TRUE» свидетельствует о серьезных проблемах с устройством и предсказывает ему скорую утрату работоспособности. О неисправностях может говорить и ненулевое значение строки «Reason» (что означает то или иное число, можно уточнить, обратившись в службу поддержки производителя HDD).
Как сделать диагностику компьютера — диагностика экрана
JScreenFix
Внимательно посмотрите на экран. Вы видите какие-нибудь пятна, которые не вызваны пылинками? Если это так, возможно, у вас «горячий» пиксель, то есть пиксель, застрявший на определенном цвете. Такие пиксели могут сильно раздражать:
JScreenFix закрашивает область экрана с «горячим» пикселем сотнями разных цветов каждую секунду. Это должно «оживить» пиксель примерно через десять минут.
Всегда ли это работает? Нет. Иногда «горячий» пиксель застревает навсегда из-за физического дефекта на экране. Но JScreenFix имеет показатель эффективности более 60%, поэтому дайте ему шанс.
Что делает SMART для HDD и SSD?
SMART был изобретен, потому что компьютерам требовалось что-то, что могло бы контролировать состояние их жестких дисков. Это означает, что SMART должен сказать, что ваш жесткий диск или твердотельный накопитель перестанет работать!
Как SMART делает это? У вас может возникнуть соблазн думать, что SMART может волшебным образом угадать, исправен ли ваш диск. То, что он делает, это совсем другая история. SMART отслеживает ряд переменных, число и тип которых варьируются от диска к диску, что является показателем его надежности. Если вы хотите получить подробное представление обо всех атрибутах SMART, поскольку их около 50 (частота ошибок необработанного чтения, время раскрутки, сообщаемые неисправимые ошибки, время включения, количество циклов загрузки и т.д.), посетите эту страницу.
Тем не менее, следует знать, что, за исключением отдельных попыток (Google , Backblaze), большинство данных SMART не документированы. Система предоставляет много внутренних данных. Тем не менее, в статистике много несоответствий, потому что многие производители жестких дисков используют разные определения и измерения. Например, некоторые производители хранят данные о времени включения в виде часов, в то время как другие измеряют их в минутах или секундах. Кроме того, они не объясняют, какие из различных атрибутов или переменных заслуживают нашего внимания, заставляя нас утонуть в данных.
Прежде чем пытаться понять, какие атрибуты SMART являются релевантными, мы должны сначала провести различие между основными типами сбоев SSD и HDD: предсказуемыми и непредсказуемыми.
Предсказуемые отказы включают поломки, которые появляются вовремя и вызваны неисправной механикой диска или повреждениями поверхности диска в случае жестких дисков. Для твердотельных накопителей прогнозируемые сбои могут включать нормальный износ с течением времени или большое количество попыток стирания, которые не увенчались успехом. Проблемы усугубляются со временем, и диск в конечном итоге выходит из строя.
Непредсказуемые сбои вызваны внезапными событиями, из которых мы можем упомянуть, например, внезапные скачки напряжения или непредвиденное повреждение схемы внутри жесткого диска или твердотельного накопителя
Важно понимать, что SMART может помочь вам обнаружить только предсказуемые ошибки
Теперь, когда у вас есть общее представление о том, что такое SMART и что делает, давайте посмотрим, как проверить состояние SMART ваших дисков в Windows, а затем также узнать, как читать и интерпретировать данные SMART.