Поскольку индустрия искусственного интеллекта (ИИ) становится все более сложной, требуется разработка надежной инфраструктуры для моделей обучения и предоставления услуг, что имеет серьезные последствия для хранения и управления данными. Это оказывает существенное влияние на объем генерируемых данных и, что более важно, на то, как и где эти сведения хранятся.
Способность эффективно управлять этими данными становится все более важной, поскольку потребность в данных растет в геометрической прогрессии из-за продолжающегося роста и развития инструментов искусственного интеллекта. Следовательно, инфраструктура хранения данных, необходимая для поддержки этих систем, должна быть масштабируемой наряду с быстрым развитием приложений и возможностей искусственного интеллекта.
Поскольку ИИ создает новые данные и делает существующие данные еще более ценными, быстро возникает цикл, в котором увеличение объема генерации данных приводит к увеличению потребностей в хранении. Это стимулирует дальнейшее генерирование данных и формирует «эффективный цикл данных ИИ», который стимулирует развитие ИИ. Чтобы полностью реализовать потенциал ИИ, компании должны не только понимать этот цикл, но и полностью понимать его влияние на инфраструктуру и управление ресурсами.
Питер Хейлс, менеджер по маркетингу продукции HDD, Western Digital.
Шестиэтапный цикл данных ИИ
Цикл данных ИИ состоит из шестиэтапной структуры, предназначенной для оптимизации обработки и хранения данных. На первом этапе основное внимание уделяется сбору существующих необработанных данных и их хранению. Здесь собираются и хранятся данные из различных источников, и анализ качества и разнообразия собранных данных имеет решающее значение — он формирует основу для следующих шагов. На этом этапе цикла рекомендуется использовать жесткие диски корпоративного класса (eHDD) большой емкости, поскольку они обеспечивают наибольшую емкость на диск и наименьшую стоимость на бит.
На следующем этапе данные подготавливаются для записи, а оценка предыдущего этапа управляется, обрабатывается и преобразуется в целях обучения. Чтобы соответствовать этому этапу, центры обработки данных развертывают улучшенную инфраструктуру хранения данных, например быстрые озера данных, для поддержки подготовки и приема данных. Здесь необходимы твердотельные накопители высокой емкости для расширения существующих жестких дисков или создания новых флэш-систем хранения данных. Это обеспечивает быстрый доступ к организованным и подготовленным данным.
Затем наступает следующий этап обучения моделей ИИ для создания точных прогнозов с использованием обучающих данных. Этот этап обычно происходит на высокопроизводительных суперкомпьютерах — для наиболее эффективной работы требуются специальные и мощные решения для хранения данных. Здесь разрабатываются флэш-накопители с высокой пропускной способностью и улучшенные eSSD с малой задержкой, чтобы удовлетворить конкретные потребности этого этапа и обеспечить необходимую скорость и точность.
После обучения на этапе вывода и подсказки основное внимание уделяется созданию удобного интерфейса для моделей ИИ. Этот этап включает в себя использование интерфейса прикладного программирования (API), информационных панелей и инструментов, которые объединяют контекст конкретных данных с подсказками для конечного пользователя. Модели искусственного интеллекта затем интегрируются в Интернет и клиентские приложения без необходимости замены существующих систем. Это означает, что для обслуживания существующих систем требуются дополнительные потребности в хранении данных в дополнение к новым вычислениям с использованием искусственного интеллекта.
Здесь для модернизации ИИ в компьютерах необходимы более крупные и быстрые твердотельные накопители, а для смартфонов и систем Интернета вещей необходимы встроенные флэш-устройства большей емкости для обеспечения бесперебойной функциональности в реальных приложениях.
За этим следует этап механизма вывода искусственного интеллекта, на котором обученные модели помещаются в производственную среду для исследования новых данных, создания нового контента или предоставления прогнозов в реальном времени. На этом этапе эффективность двигателя имеет решающее значение для быстрого и точного реагирования ИИ. Поэтому для обеспечения комплексного анализа данных необходима высокая производительность хранилища. Для поддержки этого этапа можно использовать твердотельные накопители высокой емкости для потоковой передачи или моделирования данных на серверах вывода на основе требований к масштабированию или времени отклика, а высокопроизводительные твердотельные накопители можно использовать для кэширования.
На заключительном этапе создается новый контент на основе данных, полученных с помощью моделей ИИ, а затем сохраняется. Этот этап завершает цикл данных за счет постоянного увеличения ценности данных для будущего обучения и анализа модели. Сгенерированный контент хранится на жестких дисках предприятия для архивирования в центрах обработки данных, а также на твердотельных накопителях высокой емкости и встроенных флэш-устройствах для периферийных устройств с искусственным интеллектом, что делает его доступным для будущего анализа.
Самоподдерживающийся цикл генерации данных
Полностью понимая шесть этапов цикла обработки данных ИИ и развертывая подходящие инструменты хранения для поддержки каждого этапа, компании могут эффективно поддерживать технологию ИИ, оптимизировать свои внутренние операции и максимизировать выгоду от своих инвестиций в ИИ.
Сегодняшние приложения искусственного интеллекта используют данные для создания текста, видео, изображений и различных других форм интересного контента. Этот непрерывный цикл потребления и генерации данных ускоряет потребность в ориентированных на производительность и масштабируемых технологиях хранения данных для управления большими наборами данных ИИ и эффективного преобразования сложных данных, стимулируя дальнейшие инновации.
Спрос на подходящие решения для хранения данных со временем значительно возрастет, поскольку роль искусственного интеллекта становится все более важной и неотъемлемой частью всех операций. Это означает, что доступ к данным, эффективность и точность моделей ИИ, а также более крупные и качественные наборы данных становятся все более важными. Кроме того, поскольку ИИ становится все более внедренным практически во всех отраслях, партнеры и клиенты могут ожидать, что поставщики компонентов хранения данных адаптируют свои продукты так, чтобы существовало подходящее решение для каждого отдельного этапа цикла обработки данных ИИ.
Мы представили лучший сервис по восстановлению данных.
Эта статья была создана в рамках канала Expert Insights от TechRadarPro, где мы рассказываем о лучших и ярких умах в области технологий сегодня. Мнения, выраженные здесь, принадлежат автору и не обязательно принадлежат TechRadarPro или Future plc. Если вы заинтересованы в участии, узнайте больше здесь: