Чтобы создавать реальные инструменты искусственного интеллекта, вам необходимо работать с данными. Соревнование? Традиционные архитектуры данных часто ведут себя как упрямые картотеки. Они просто не могут справиться с тем объемом неструктурированных данных, которые мы генерируем.
Ритейлеры из списка Fortune 500, такие как Walmart, используют десятки моделей искусственного интеллекта и машинного обучения (ML), от генеративного обслуживания клиентов на базе искусственного интеллекта до доставки дронами и оптимизации цепочек поставок. Каждая из них считывает и создает уникальные комбинации наборов данных. Эта изменчивость требует адаптированных компонентов для приема, хранения, обработки и преобразования данных.
Независимо от данных или архитектуры, функции низкого качества напрямую влияют на производительность вашей модели. Объект или любой измеримый ввод данных, будь то размер объекта или аудиоклипа, должен быть высокого качества. Техническая часть — процесс выбора и преобразования этих необработанных наблюдений в желаемые функции, чтобы их можно было использовать в контролируемом обучении, — становится решающей для разработки и обучения новым подходам ML для решения новых задач.
Этот процесс включает постоянную итерацию, управление версиями функций, гибкую архитектуру, глубокие знания предметной области и интерпретируемость. Давайте рассмотрим эти элементы более подробно.
Руководитель глобальной практики анализа и аналитики в Nisum.
Правильная архитектура данных упрощает сложные процессы
Хорошо продуманная архитектура данных гарантирует, что ваши данные будут легко доступны для разработки функций. К наиболее важным компонентам относятся:
1. Решения для хранения данных: Балансировка хранилищ данных и озер данных.
2. Конвейеры данных: использование таких инструментов, как AWS Glue или Azure Data Factory.
3. Контроль доступа: Обеспечение безопасности и правильного использования данных.
Автоматизация может значительно сократить усилия, необходимые для разработки функций. Такие методы, как секционирование данных или хранение на основе столбцов, упрощают параллельную обработку больших наборов данных. Путем разделения данных на более мелкие блоки на основе определенных критериев, таких как регион клиента (например, Северная Америка, Европа, Азия), при выполнении запроса извлекаются и обрабатываются параллельно на нескольких компьютерах только соответствующие разделы или столбцы.
Автоматизированная проверка данных, происхождение функций и управление схемами в архитектуре улучшают понимание и способствуют повторному использованию моделей и экспериментов, что еще больше повышает эффективность. Для этого необходимо установить твердые ожидания для ваших данных, такие как формат, диапазоны значений, пороговые значения отсутствующих данных и другие ограничения. Такие инструменты, как Apache Airflow, помогают встраивать проверки, а Lineage IQ поддерживает происхождение функций, преобразования и отслеживание целей. Ключевым моментом является постоянное хранение и управление развивающимися определениями схемы для ваших данных и функций в центральном репозитории.
В сильной архитектуре данных приоритет отдается очистке, проверке и преобразованию, чтобы обеспечить точность и согласованность данных, что помогает оптимизировать разработку функций. Хранилища функций, тип центрального хранилища функций, являются ценным инструментом в архитектуре данных, которая поддерживает это. Чем сложнее архитектура и хранилище функций, тем важнее иметь четкое управление владением и доступом, которое упрощает рабочие процессы и повышает безопасность.
Роль хранилищ функций
Многие библиотеки ML предоставляют готовые функции для общих задач разработки функций, таких как горячее кодирование и быстрое прототипирование. Хотя они могут сэкономить ваше время и обеспечить правильную разработку функций, они могут не обеспечить динамические преобразования и методы, отвечающие вашим потребностям. Централизованное хранилище функций — это, вероятно, то, что вам нужно для управления сложностью и согласованностью.
Хранилище функций упрощает совместное использование и позволяет избежать дублирования усилий. Однако его настройка и обслуживание требуют дополнительной ИТ-инфраструктуры и опыта. Вместо того, чтобы полагаться на существующую среду кодирования поставщика предварительно созданной библиотеки для определения метаданных функций и добавления новых функций, специалисты по внутренним данным с хранилищем функций имеют автономию для реализации их в режиме реального времени.
При поиске хранилища функций, которое будет отвечать вашим конкретным задачам и хорошо интегрироваться с существующими инструментами, следует учитывать множество факторов. Не говоря уже о производительности, масштабируемости и условиях лицензирования магазина — вы ищете открытый исходный код или что-то коммерческое?
Затем убедитесь, что ваше хранилище функций подходит для сложных или специфичных для предметной области задач разработки функций, и проверьте, что написано на коробке. Например, при выборе продукта важно проверять отзывы и историю версий. Магазин обратно совместим? Существует ли официальная документация, каналы поддержки или активное сообщество пользователей с ресурсами по устранению неполадок, учебными пособиями и примерами кода? Насколько легко изучить синтаксис и API магазина? Это факторы, которые следует учитывать при выборе подходящего хранилища для ваших задач по разработке функций.
Баланс между интерпретируемостью и производительностью
Достижение баланса между интерпретируемостью и производительностью часто является сложной задачей. Интерпретируемые функции легко понятны человеку и напрямую связаны с решаемой проблемой. Например, функция под названием «F12», такая как «Возраст_Клиента_в_годах», является более репрезентативной и более интерпретируемой. Однако для сложных моделей некоторой интерпретируемостью можно пожертвовать ради большей точности.
Например, модель, которая обнаруживает мошеннические транзакции по кредитным картам, может использовать механизм повышения градиента для обнаружения тонких закономерностей в различных функциях. Хотя это более точно, из-за сложности сложно понять логику каждого прогноза. Анализ важности функций и объяснимые инструменты искусственного интеллекта могут помочь сохранить интерпретируемость в этих сценариях.
Разработка функций — одна из самых сложных задач предварительной обработки данных для разработчиков. Однако, как шеф-повар на хорошо спроектированной кухне, автоматизация структурирования данных в хорошо продуманной архитектуре значительно повышает эффективность. Обеспечьте свою команду инструментами и опытом, необходимыми для оценки текущих процессов, выявления пробелов и принятия практических мер по интеграции автоматической проверки данных, управления происхождением функций и схемой.
Чтобы оставаться впереди в конкурентной среде искусственного интеллекта, особенно крупным компаниям, важно инвестировать в надежную архитектуру данных и центральное хранилище функций. Они обеспечивают согласованность, минимизируют дублирование и позволяют масштабировать. Благодаря сочетанию интерпретируемых каталогов функций, понятных рабочих процессов и безопасного контроля доступа разработка функций может стать менее сложной и более управляемой задачей.
Работайте с нами, чтобы преобразовать процесс разработки функций и гарантировать, что ваши модели построены на основе высококачественных, интерпретируемых и масштабируемых функций. Свяжитесь с нами сегодня, чтобы узнать, как мы можем помочь вам раскрыть весь потенциал ваших данных и добиться успеха в области искусственного интеллекта.
Мы перечисляем лучшее облачное хранилище для бизнеса.
Эта статья была создана в рамках канала Expert Insights от TechRadarPro, где мы рассказываем о лучших и ярких умах в области технологий сегодня. Мнения, выраженные здесь, принадлежат автору и не обязательно отражают точку зрения TechRadarPro или Future plc. Если вы заинтересованы в участии, узнайте больше здесь: