Эта статья относится к серверам следующих типов:
Перед продажей все сервера проходят проверку, но при долгой аренде сервер может начать ломаться уже в процессе вашей работы с ним. У нас нет доступа на ваши физические сервера, и следить за их здоровьем мы не можем. Это должны делать вы.
Самое главное - следить за оставшимся ресурсом SSD дисков. Это критически важно, ресурс конечен, со временем он кончается у любых дисков, не важно их качество и тип. Важно вовремя заменить диск на новый. Мы сделаем это бесплатно и поможем скопировать данные на новый диск, если нужно.
Проверяйте здоровье ваших серверов примерно раз в несколько месяцев.
Программа, которая лучше всего понимает самодиагностику всех дисков, это CrystalDiskInfo.
Скачайте программу CrystalDiskInfo с сайта https://crystalmark.info/en/software/crystaldiskinfo/ (лучше Standard Edition).
Поскольку сайт у них запутанный, можно скачать версию 9.7.2 от 08.2025 по прямой ссылке с нашего сайта.
Вот как выглядит нормальный SSD диск:
На температуру не смотрите - высокая температура полезна для флеш-памяти диска, и не вредит современным накопителям. Главное - оставшийся ресурс, в данном случае, это 92%. Надо беспокоиться тогда, когда ресурс приближается к нулю. Если ресурса осталось менее 10%, диск надо заменить. Обратитесь в поддержку, чтобы согласовать процедуру.
Вот как выглядит нормальный HDD диск:
Ресурса там нет, но если нет красных показателей, то с диском всё хорошо.
Вам нужна утилита smartctl. В Ubuntu например это пакет smartmontools, установить можно с помощью команды sudo apt install smartmontools.
Вот как выглядит проверка NVME SSD диска, команда -
sudo smartctl -a /dev/nvme0 | grep -iE '(model|test result|percentage|serial)'
результат -
[root@nv97 ~]# sudo smartctl -a /dev/nvme0 | grep -iE '(model|test result|percentage|serial)'
Model Number: Samsung SSD 970 EVO Plus 250GB
Serial Number: S4EUNX0R906884T
SMART overall-health self-assessment test result: PASSED
Percentage Used: 3%
Тут главное PASSED - общее здоровье в норме, и 3% - значит, использовано 3% ресурса. Если ресурса использовано больше 90%, диск надо заменить. Обратитесь в поддержку, чтобы согласовать процедуру.
Проверьте все диски - nvme0, nvme1, nvme2, nvme3, и так далее, по числу NVME дисков вашего сервера.
Вот как выглядит проверка SATA SSD или HDD диска, команда -
sudo smartctl -a /dev/sda | grep -iE '(model|test result|serial)'
результат -
[root@nv65 ~][root@nv65 ~]# sudo smartctl -a /dev/sda | grep -iE '(model|test result|serial)'
Model Family: Intel 53x and Pro 1500/2500 Series SSDs
Device Model: INTEL SSDSC2BW480A4
Serial Number: CVDA4466065J4805GN
SMART overall-health self-assessment test result: PASSED
root@nv-133225:/home/ubuntu# sudo smartctl -a /dev/sda | grep -iE '(model|test result|serial)'
Model Family: HGST Travelstar 7K1000
Device Model: HGST HTS721010A9E630
Serial Number: JR1000BNJBBZ2E
SMART overall-health self-assessment test result: PASSED
Тут главное PASSED - общее здоровье в норме.
Проверьте все диски - sda, sdb, sdc, sdd, и так далее, по числу SATA дисков вашего сервера.
Если у вас smartctl какой-то другой версии, то та часть, которая grep, может не сработать, тогда уберите её (просто sudo smartctl -a /dev/sda), и читайте вывод полностью, по аналогии.
С проверкой системы охлаждения всё немного сложнее, поскольку многие десктопные процессоры и сервера в целом рассчитаны на работу в режиме предельного нагрева (Thermal Throttle). Например, для серверов 7300U / 8650U, или на современном Ryzen 9700X, работа на максимальной возможной температуре является нормальным оптимальным режимом работы, предусмотренным производителем. Иногда охладить кристалл процессора ниже этой температуры в реальных условиях попросту невозможно.
Исходя из этого, трудно придумать какой-то единый для всех серверов показатель, который можно проверить и сразу понять, всё ли работает нормально.
Однако общее правило всё же есть: если система охлаждения сервера неисправна, будут наблюдаться сильные нетипичные тормоза, а также, иногда, самостоятельные выключения сервера. Если такое есть, обратитесь в поддержку для более точного анализа проблемы, на основе особенностей конкретного сервера специалисты подскажут, куда смотреть.
Если такого не наблюдается, если работа сервера в норме, то можно продолжать работать, скорее всего, всё нормально.