Искусственный интеллект в анализе надежности HDD и SSD: новые горизонты

В современном мире искусственный интеллект (ИИ) становится неотъемлемой частью различных технологий и процессов. Мы ежедневно сталкиваемся с его применением в самых разных сферах: от медицины до автомобильной промышленности. Но задумывались ли вы о том, как ИИ может помочь в области хранения данных? В частности, может ли он быть использован для анализа надежности жестких дисков (HDD) и твердотельных накопителей (SSD)? Неожиданная поломка жесткого диска может вызвать серьезные проблемы, включая простои серверов и потерю данных. Часто HDD не подают явных сигналов о своем состоянии, и специалисты вынуждены полагаться на время эксплуатации и свой опыт. В этой статье мы рассмотрим, как ИИ может изменить подход к мониторингу состояния дисков и предотвратить возможные сбои.

Традиционные методы диагностики

На сегодняшний день основным методом диагностики состояния жестких дисков остается S.M.A.R.T.-тестирование (Self-Monitoring, Analysis and Reporting Technology). Этот метод включает сбор множества параметров, таких как время работы диска, частота ошибок при чтении и записи, а также количество неисправных секторов. Всего система S.M.A.R.T. отслеживает около 255 различных атрибутов, хотя производители могут ограничивать доступ к некоторым из них.

Несмотря на свою полезность, S.M.A.R.T. имеет ряд ограничений. Например, он не всегда способен точно предсказать момент отказа диска, особенно в случае внезапных поломок. Кроме того, специалисты часто вынуждены полагаться на собственный опыт и интуицию, что не всегда гарантирует успешное решение проблемы.

Применение ИИ для прогнозирования отказов

Недавно на популярном техническом ресурсе Habr.com была опубликована статья, посвященная использованию ИИ для анализа надежности HDD-дисков. Авторы исследования предложили инновационный подход к этой задаче, основанный на анализе больших массивов исторических данных о фактических отказах дисков.

Для создания модели ИИ использовались данные двух крупных компаний: 

  1. Данные компании BackBlaze: Эта американская компания с 2013 года публикует результаты S.M.A.R.T.-диагностики своих жестких дисков. Они предоставляют обширную статистику по 85 различным моделям дисков, включая информацию о времени их выхода из строя. Благодаря этим данным, исследователи смогли получить представление о поведении разных моделей дисков в реальных условиях эксплуатации.
  2. Конкурс PAKDD2020 Alibaba AI Ops Competition: В рамках этого соревнования участникам предлагалось разработать модель для прогнозирования отказов дисков на основе анонимизированных  S.M.A.R.T.-данных. Важно отметить, что данные для конкурса содержали информацию о производителях дисков, однако эта информация была скрыта, что усложнило задачу участников. Несмотря на отсутствие информации о конкретных производителях дисков, данные содержали достаточный объем атрибутов для успешной тренировки модели.

 Создание и тестирование модели

Процесс создания модели включал несколько этапов. Первым делом были собраны и обработаны исторические данные, включая S.M.A.R.T.-атрибуты и информацию о реальных отказах. Далее данные прошли этап очистки и нормализации, чтобы устранить аномалии и обеспечить корректную работу алгоритмов машинного обучения.

Затем проводился анализ корреляций между различными атрибутами и моментами отказов, что помогло выявить наиболее значимые факторы. На основании этих данных были разработаны и обучены несколько моделей машинного обучения, использующие различные алгоритмы, такие как случайные леса, градиентный бустинг и нейронные сети.

После завершения обучения модели были протестированы на новых данных, чтобы оценить их точность и надежность. Результаты показали, что модель способна предсказывать вероятность выхода диска из строя в ближайшие дни с высокой точностью, что позволяет своевременно заменять потенциально ненадежные устройства и предотвращать простои.

Плюсы модели:

Получилась довольно универсальная модель — критической зависимости от данных SMART-дисков, используемых в конкретной компании, нет. А значит, она не требует сложной системы регулярного сбора SMART-данных и событий отказа дисков. В этом ее основная ценность.

Минусы модели:

Написать одну модель прогнозирования выхода из строя HDD, применимую к разным моделям дисков, не получится. Для каждой модели диска все же придется обучать отдельную модель. Хотя бы потому, что у каждой модели диска может быть отличный от других набор SMART-атрибутов. Кроме того, износ в SMART-атрибутах проявляется индивидуально для каждой модели диска.

Заключение

Модели авторов могут обеспечивать достаточно высокую точность. В некоторых случаях Precision достигает 70%, но при этом значительное количество отказов эти модели спрогнозировать не могут. Метрика Recall ни разу не превысила 50%, то есть половина дисков выходит из строя по причинам, которые модель не понимает. Эти выходы из строя (отказы) можно назвать «внезапными смертями», или sudden death. Вероятно, столь большое количество «внезапных смертей» говорит о том, что SMART-данных просто недостаточно. И то, что у победителей конкурса от Alibaba, Recall составляет лишь 40%, подтверждает эту гипотезу. 

Использование искусственного интеллекта открывает новые возможности для мониторинга и предсказания отказов жестких дисков. Созданные модели уже показывают хорошие результаты, особенно в плане точности предсказаний. Тем не менее, остаются нерешённые вопросы, связанные с внезапными отказами и ограниченностью S.M.A.R.T.-данных.

Авторы проекта продолжают работу над улучшением своих моделей и надеются, что с новыми данными удастся повысить эффективность предсказаний. Несмотря на существующие трудности, применение ИИ в области диагностики жестких и твердотельных (HDD и SSD) дисков представляется перспективным направлением развития информационных технологий.

Более подробно о модели, в том числе с техническими нюансами (всякие разные параметры ИИ-модели) вы можете прочитать в оригинальном материале на сайте Habr.com

14 дней пробовать, Скачать сейчас!

Полностью фукнциональная пробная версия

Прокрутить вверх