Вывод ИИ на периферии означает, что обученные модели машинного обучения (ML) выполняются ближе к конечному пользователю, чем традиционный вывод ИИ в облаке. Вывод Edge ускоряет время отклика моделей машинного обучения и позволяет использовать приложения искусственного интеллекта в реальном времени в таких отраслях, как игры, здравоохранение и розничная торговля.
Содержание
Что такое вывод ИИ на периферии?
Прежде чем мы углубимся в выводы ИИ на периферии, нам следует понять, что такое вывод ИИ в целом. В цикле разработки AI/ML вывод — это момент, в котором обученная модель ML выполняет задачи с новыми, ранее неизвестными данными, такими как: Б. делает прогнозы или генерирует контент. Вывод ИИ происходит, когда конечные пользователи напрямую взаимодействуют с моделью машинного обучения, встроенной в приложение. Например, когда пользователь отправляет запрос в ChatGPT и получает ответ, вывод происходит в тот момент, когда ChatGPT «думает», и вывод является результатом этого вывода.
Вывод ИИ на периферии — это подмножество вывода ИИ, при котором модель машинного обучения работает на сервере, расположенном рядом с конечными пользователями, например, в том же регионе или даже в том же городе. Такая близость сокращает задержку до миллисекунд, обеспечивая более быструю реакцию модели, что полезно для приложений реального времени, таких как распознавание изображений, обнаружение мошенничества или создание игральных карт.
Руководитель отдела искусственного интеллекта в Gcore.
Как выводы ИИ на периферии связаны с периферийным ИИ
Вывод ИИ на границе — это подмножество периферийного ИИ. Edge AI обрабатывает данные и запускает модели машинного обучения ближе к источнику данных, чем в облаке. Edge AI включает в себя все, что связано с периферийными вычислениями AI, от пограничных серверов (городская граница) до устройств Интернета вещей и базовых станций телекоммуникаций (дальняя граница). Edge AI также включает в себя обучение на периферии, а не только логические выводы. В этой статье мы сосредоточимся на выводах ИИ на пограничных серверах.
Сравнение вывода на границе и вывода в облаке
При выводе облачного ИИ вы запускаете модель машинного обучения на удаленном облачном сервере, а пользовательские данные отправляются в облако и обрабатываются там. В этом случае с моделью может взаимодействовать конечный пользователь из другого региона, страны или даже континента. В результате задержка облачного вывода варьируется от сотен миллисекунд до секунд. Этот тип вывода ИИ подходит для приложений, которые не требуют локальной обработки данных или низкой задержки, таких как: Например, ChatGPT, DALL-E и другие популярные инструменты GenAI. Вывод границ отличается двумя взаимосвязанными способами:
- Вывод происходит ближе к конечному пользователю
- Задержка ниже
Вот как работает вывод ИИ на периферии
Вывод искусственного интеллекта на периферии опирается на ИТ-инфраструктуру с двумя основными архитектурными компонентами: сетью с малой задержкой и серверами на базе чипов искусственного интеллекта. Если вам нужен масштабируемый вывод искусственного интеллекта, способный справляться с пиковыми нагрузками, вам также понадобится служба оркестрации контейнеров, такая как Kubernetes; это работает на пограничных серверах и позволяет вашим моделям машинного обучения быстро и автоматически масштабироваться вверх и вниз. Сегодня лишь немногие поставщики обладают инфраструктурой, позволяющей предлагать глобальные выводы ИИ на периферии, отвечающие этим потребностям.
Сеть с низкой задержкой: Поставщик, предлагающий вывод ИИ на периферии, должен иметь распределенную сеть граничных точек присутствия (PoP), где расположены серверы. Чем больше периферийных точек доступа, тем быстрее время прохождения по сети, что означает более быструю реакцию модели машинного обучения для конечных пользователей. Провайдер должен иметь десятки или даже сотни точек PoP по всему миру и предлагать интеллектуальную маршрутизацию, которая направляет пользовательский запрос на ближайший пограничный сервер, чтобы эффективно и результативно использовать глобально распределенную сеть.
Серверы с ИИ-ускорителями: Чтобы сократить время вычислений, вам необходимо запустить модель машинного обучения на сервере или виртуальной машине, оснащенной ускорителем искусственного интеллекта, например графическим процессором NVIDIA. Существуют графические процессоры, специально разработанные для вывода ИИ. Например, одна из последних моделей, NVIDIA L40S, имеет производительность вывода в 5 раз выше, чем графические процессоры A100 и H100, которые в первую очередь предназначены для обучения больших моделей машинного обучения, но также используются для вывода. Графический процессор NVIDIA L40S на данный момент является лучшим ускорителем искусственного интеллекта для выполнения логических выводов искусственного интеллекта.
Оркестровка контейнеров: развертывание моделей машинного обучения в контейнерах делает модели масштабируемыми и переносимыми. Поставщик может управлять базовым инструментом оркестрации контейнеров от вашего имени. В этой настройке инженер ML, который хочет интегрировать модель в приложение, просто загрузит образ контейнера с моделью ML и получит готовую к использованию конечную точку модели ML. При возникновении скачка нагрузки контейнеры, содержащие вашу модель машинного обучения, автоматически увеличиваются, а затем уменьшаются, когда нагрузка спадет.
Ключевые преимущества вывода ИИ на периферии
Выводы искусственного интеллекта на периферии предлагают три ключевых преимущества в различных отраслях и приложениях: низкая задержка, безопасность и суверенитет, а также экономическая эффективность.
Низкое время ожидания
Чем ниже задержка в сети, тем быстрее реагирует ваша модель. Если средняя задержка сети провайдера ниже 50 мс, это подходит для большинства приложений, требующих почти мгновенного ответа. Для сравнения, задержка в облаке может достигать нескольких сотен миллисекунд в зависимости от местоположения относительно облачного сервера. Это заметная разница для конечного пользователя, поскольку задержка в облаке потенциально приводит к разочарованию, поскольку конечным пользователям приходится ждать ответов от ИИ.
Помните, что сеть с низкой задержкой учитывает только время передачи данных. Задержка сети в 50 мс не означает, что пользователи получат результаты AI в течение 50 мс. Вам нужно добавить время, необходимое модели ML для вывода. Время обработки этой модели ML зависит от используемой модели и может составлять большую часть времени обработки для конечных пользователей. Это еще одна причина убедиться, что вы используете сеть с низкой задержкой, чтобы ваши пользователи получали максимально возможное время отклика, поскольку разработчики моделей ML продолжают улучшать скорость вывода моделей.
Безопасность и суверенитет
Когда данные хранятся на периферии — локально для пользователя — это упрощает соблюдение местных законов и правил, таких как GDPR и эквивалентных правил в других странах. Поставщик периферийного вывода должен настроить свою инфраструктуру вывода в соответствии с местным законодательством, чтобы гарантировать адекватную защиту вас и ваших пользователей.
Пограничный вывод также повышает конфиденциальность и конфиденциальность данных ваших конечных пользователей, поскольку они обрабатываются локально, а не отправляются на удаленные облачные серверы. Это уменьшает поверхность атаки и сводит к минимуму риск обмена данными при передаче.
Эффективность затрат
Обычно провайдер взимает плату только за вычислительные ресурсы, используемые моделью ML. Это, наряду с тщательно настроенными графиками автоматического масштабирования и выполнения модели, может значительно снизить затраты на логические выводы. Кому следует использовать AI Inference на периферии?
Вот несколько распространенных сценариев, в которых вывод на границе будет оптимальным выбором:
- Низкая задержка имеет решающее значение для вашего приложения и пользователей. Разнообразные приложения, работающие в режиме реального времени, от распознавания лиц до анализа торговли, требуют малой задержки. Вывод границ обеспечивает возможность вывода с минимальной задержкой.
- Их пользовательская база разбросана по разным географическим регионам. В этом случае вам необходимо обеспечить одинаковый пользовательский опыт, то есть одинаковую низкую задержку, для всех пользователей, независимо от их местоположения. Для этого требуется глобально распределенная периферийная сеть.
- Вы не хотите заниматься обслуживанием своей инфраструктуры. Если поддержка облачной инфраструктуры и инфраструктуры искусственного интеллекта не является частью вашего основного бизнеса, возможно, стоит делегировать эти процессы опытному и компетентному партнеру. Это позволяет вам сосредоточить свои ресурсы на разработке приложения.
- Вы хотите хранить свои данные локально, например, в стране, где они созданы. В этом случае вам необходимо выполнить вывод ИИ как можно ближе к конечным пользователям. Глобально распределенная периферийная сеть может удовлетворить этому требованию, тогда как облако вряд ли обеспечит необходимый вам уровень распределения.
Какие отрасли выигрывают от использования ИИ на периферии?
Выводы ИИ на периферии приносят пользу любой отрасли, использующей ИИ/МО, но особенно тем, которые разрабатывают приложения реального времени. В технологическом секторе это будут генеративные приложения искусственного интеллекта, чат-боты и виртуальные помощники, инструменты увеличения данных и инструменты искусственного интеллекта для разработчиков программного обеспечения. В играх это будет создание ИИ-контента и карт, аналитика игроков в реальном времени, а также настройка и общение ИИ-ботов в реальном времени. Для розничного рынка типичные приложения будут включать в себя умные продуктовые магазины с самообслуживанием и мерчендайзингом, виртуальную примерку и генерацию контента, прогнозы и рекомендации.
В производстве преимущества заключаются в обнаружении ошибок в реальном времени в производственных конвейерах, приложениях VR/VX и быстром реагировании, тогда как в средствах массовой информации и развлечениях речь идет об анализе контента, переводе в реальном времени и автоматической транскрипции. Еще одним сектором, где разрабатываются приложения реального времени, является автомобильная промышленность, особенно быстрое реагирование для автономных транспортных средств, персонализация транспортных средств, расширенная помощь водителю и информация о дорожном движении в режиме реального времени.
Диплом
Для организаций, желающих развертывать приложения реального времени, вывод ИИ на периферии является важной частью их инфраструктуры. Это значительно снижает задержку и обеспечивает сверхбыстрое время отклика. Для конечных пользователей это означает более удобный и увлекательный опыт, независимо от того, играют ли они в онлайн-игры, используют чат-боты или совершают покупки в Интернете с помощью службы виртуальной примерки. Улучшенная безопасность данных позволяет компаниям предлагать превосходные услуги искусственного интеллекта, защищая при этом пользовательские данные. Выводы ИИ на периферии являются важнейшим фактором внедрения ИИ/МО в производство в больших масштабах, стимулируя инновации и эффективность ИИ/МО во многих отраслях.
Мы перечисляем лучший хостинг с голым железом.
Эта статья была создана в рамках канала Expert Insights от TechRadarPro, где мы рассказываем о лучших и ярких умах в области технологий сегодня. Мнения, выраженные здесь, принадлежат автору и не обязательно отражают точку зрения TechRadarPro или Future plc. Если вы заинтересованы в участии, узнайте больше здесь: