Для организаций, которые обучают модели ИИ, доступ к достаточным количеству высококачественных данных быстро становится серьезной проблемой. Конфиденциальность и соблюдение нормативных требований являются одними из самых больших тем, причем более строгие правила получают доступ к информации, которая трудна для обучения надежных моделей ИИ.
Даже если данные доступны, качество не всегда гарантируется. Записи данных в реальном мире могут легко отражать существующее неравенство или исторические решения, которые, не обвиняемые, могут привести к неправильным результатам, которые могут проявиться в приложениях клиентов. Кроме того, в высокоспециализированных отраслях или в которых используются редкие события, объем полезных данных может быть слишком малым, чтобы получить значимые знания.
Тогда есть затраты. Подготовка реальных данных для обучения ИИ-это трудоемкий процесс, который часто суммируется, отмечается и подтверждается в больших масштабах. Это может быть время, требующее времени и восприимчиво к неудачам, особенно когда команды находятся под давлением, чтобы обеспечить быстрые результаты. Собирайте все это вместе, и неудивительно, что у некоторых компаний возникают трудности с развитием своих проектов искусственного интеллекта.
Директор по продукту и стратегии в Node4.
Различные приложения
Чтобы закрыть разрыв, многие искусственно генерируемые или «синтетические» данные обращаются в качестве альтернативы реальным источникам. Это поставляется в различных форматах, которые варьируются от структурированных таблиц и записей данных до неструктурированного контента, такого как текст, изображения и видео. Возможно даже создавать синтетические пользователи или поведение для более сложных сценариев обучения и тестирования.
Он был разработан для того, чтобы отразить свойства реальных данных без личной идентифицируемой информации (PII), гибкого решения, которое преодолевает многие проблемы, связанные с живыми записями.
Синтетические данные уже оказались ценными для регулируемых отраслей. Например, в системе здравоохранения создание реалистичных записей данных без ссылки на данные пациента позволяют избежать многих юридических и этических проблем, которые обычно связаны с этими приложениями. С практической точки зрения больницы и исследовательские институты могут использовать платформы искусственного интеллекта, которые повторяют характеристики медицинских карт без личных данных.
В другом месте исследователи могут изучить сложные вопросы, например, B. Предсказание курса заболевания или оптимизация планов лечения с использованием синтетических данных, которые ведут себя как реальная популяция пациентов. Это означает, что вы можете обучать модели ИИ без риска без конфиденциальности, и, поскольку синтетические данные сохраняют основные свойства оригинала, вывод для моделирования и анализа остается действительным, но без идентификации нуля.
Правильные записи данных в нужное время
В других средах реальные записи данных часто отражают ограничения или неравенство, из которых системы, из которых они были зарегистрированы. Если эти проблемы не исправлены, эти проблемы могут выполнять обученные модели ИИ, что приводит к неправильным или несправедливым расходам.
Синтетические данные предлагают способ исправить этот дисбаланс. Поскольку это искусственно генерируется, записи данных могут быть скорректированы, чтобы лучше отражать более разнообразную или более репрезентативную выборку, такую как разные возрастные группы, этнические группы или модели поведения. Это также позволяет компаниям создавать реалистичные моделирование редких сценариев, которые слишком редки в реальных данных, чтобы эффективно обучить их.
Недостаток данных также проявляется в других ситуациях, например, в других ситуациях, с которыми сталкиваются автономные системы вождения. В некоторых странах погодные явления, такие как град, встречаются редко, но если они возникают, транспортные средства и их жители могут представлять реальную опасность.
Вместо того, чтобы ждать таких условий естественным образом, разработчики ИИ могут создавать синтетическое моделирование условий с низкой видимостью и другими необычными сценариями, которые затем используются для обучения систем транспортных средств для надлежащего реагирования в жизненных ситуациях.
Точно так же изображения людей или объектов, которые внезапно появляются на пути автомобиля, подвергаются компьютеру и протестированы со всех сторон, чтобы убедиться, что все варианты будут рассмотрены. Без этого уровня обучения модель может не распознавать потенциально опасную ситуацию и не реагирует надлежащим образом.
Затраты и эффективность
По сравнению со временем, усилиями и бюджетом, которые необходимы для получения и создания записей данных в больших масштабах, использование синтетических данных может предложить более быструю и предсказуемую альтернативу. Например, в финансовых услугах использование реальных данных о транзакциях клиентов обычно требует обширных обзоров анонимизации и соответствия. Напротив, синтетические записи данных, которые имитируют паттерны транзакций без ссылки на реальные данные клиента, позволяют более быстро развивать модель ИИ с более низким риском.
В реальном мире синтетические данные финансовых учреждений использовались для улучшения разработки модели маркировки мошенничества, не полагаясь на конфиденциальные записи транзакций клиентов. Доступ к и использование реальных финансовых данных обычно требует дорогостоящей анонимизации, тестов соответствия и юридических проверок — ряд процессов, которые неизбежно увеличивают затраты. Сгенерируя синтетические записи данных, которые повторяют реальные паттерны транзакций, компании сокращают потребность в дорогостоящей подготовке данных и минимизируют нормативные препятствия, что делает их проекты ИИ дешевле.
Что касается будущего, этот тип работы представляет собой верхушку айсберга, и мы можем ожидать, что многие другие организации обратят синтетические данные для управления своими проектами ИИ. Если к 2030 году предсказания Gartner точны, «синтетические данные будут полностью омрачены в моделях ИИ».
Мы представили лучшего бота в чате ИИ для бизнеса.
Эта статья была произведена в рамках канала Expert Insights Techradarpro, в котором мы сегодня предлагаем лучшие и умные руководители в технологической индустрии. Взгляды, выраженные здесь, относятся к авторскому и не обязательно мнениям Techradarpro или Future PLC. Если вы заинтересованы в том, чтобы определить больше здесь: