Каковы основные обязанности современного инженера по машинному обучению?
Кажется, это простой вопрос с простым ответом:
Создавайте модели машинного обучения и анализируйте данные.
В действительности этот ответ часто неприменим.
Эффективное использование данных имеет важное значение для успешной современной компании. Однако для того, чтобы данные превратились в конкретные бизнес-результаты, им необходимо пройти путь. Их необходимо собирать, безопасно распространять и анализировать в рамках собственного жизненного цикла разработки.
Взрыв облачных вычислений в середине-конце 2000-х годов и внедрение машинного обучения на предприятиях десять лет спустя фактически ознаменовали начало и конец этого пути. К сожалению, компании среднего звена часто сталкиваются с препятствиями, связанными с качеством данных, которые обычно не находятся в поле зрения большинства руководителей.
Консультант по решениям в Атаккаме.
Содержание
Влияние низкого качества данных на компании
Низкое качество и непригодность данных являются бременем для тех, кто находится в конце своего пути. Это потребители данных, которые используют данные для построения моделей и других видов деятельности, приносящих доход.
Слишком часто специалистам по данным приходится «строить модели машинного обучения и анализировать данные», но плохие данные не позволяют им делать что-либо подобное. Компании тратят столько усилий и внимания на доступ к этим данным, но никто не думает проверять, можно ли использовать данные, «входящие» в модель. Если входные данные ошибочны, то же самое произойдет и с выходными моделями и аналитикой.
По оценкам, ученые, работающие с данными, тратят от 60 до 80 процентов своего времени на очистку данных, чтобы результаты их проектов были надежными. Этот процесс очистки может потребовать от них угадать значение данных и выявить пробелы. Они также могут непреднамеренно удалить потенциально ценные данные из своих моделей. Результат разочаровывает и неэффективен, поскольку эти испорченные данные мешают специалистам по обработке данных выполнять ценную часть своей работы: решать бизнес-задачи.
Эти огромные, часто невидимые затраты замедляют реализацию проектов и ухудшают их результаты.
Проблема усугубляется, когда задачи очистки данных выполняются в повторяющихся хранилищах. Тот факт, что один человек заметил и устранил проблему в одном проекте, не означает, что он решил проблему для всех своих коллег и соответствующих проектов.
Даже если команда инженеров данных может выполнить массовую очистку, она может быть не в состоянии сделать это немедленно и может не иметь четкого представления о контексте задачи и о том, почему они ее выполняют.
Влияние качества данных на машинное обучение
Чистые данные особенно важны для проектов машинного обучения. Будь то классификации или регрессии, контролируемое или неконтролируемое обучение, глубокие нейронные сети или когда модель ML поступает в производство, ее разработчики должны постоянно сравнивать ее с новыми данными.
Важнейшей частью жизненного цикла машинного обучения является управление дрейфом данных, чтобы гарантировать, что модель остается эффективной и продолжает приносить пользу бизнесу. В конце концов, данные — это постоянно меняющийся ландшафт. Исходные системы могут быть объединены после приобретения, может вступить в силу новое управление или может измениться коммерческий ландшафт.
Это означает, что предыдущие предположения о данных могут больше не применяться. Хотя такие инструменты, как Databricks/MLFlow, AWS Sagemaker или Azure ML Studio, эффективно охватывают продвижение, тестирование и переобучение модели, они менее подходят для изучения того, какая часть данных изменилась, почему это так, а затем устранения проблем. что может быть утомительно и отнимать много времени.
Практика, основанная на данных, предотвращает возникновение этих проблем в проектах машинного обучения. Однако речь идет не только о технических командах, создающих конвейеры и модели. Вся компания должна присоединиться к этому. Примеры того, как это может происходить на практике, включают случаи, когда данные требуют бизнес-процесса, который должен быть кем-то одобрен, или случаи, когда нетехнический участник из фронт-офиса делится своими знаниями в начале пути к данным.
Препятствие для построения моделей ML
Привлечение бизнес-пользователей в качестве клиентов данных своей организации становится все более возможным с помощью ИИ. Обработка естественного языка позволяет нетехническим пользователям запрашивать данные и получать контекстную информацию.
Ожидаемый темп роста ИИ в период с 2023 по 2030 год составит 37 процентов. 72 процента руководителей считают ИИ самым важным бизнес-преимуществом, а 20 процентов EBIT компаний, готовых к внедрению ИИ, в будущем будут генерироваться с помощью ИИ.
Качество данных является основой ИИ. Это повышает производительность алгоритмов и позволяет им создавать надежные прогнозы, рекомендации и классификации. Для 33 процентов компаний, сообщающих о неудачных проектах ИИ, причиной является плохое качество данных. Фактически, компании, которые уделяют внимание качеству данных, могут повысить общую эффективность ИИ.
Однако качество данных — это не просто флажок, который можно поставить галочкой. Компании, которые делают это неотъемлемой частью своей деятельности, могут достичь ощутимых бизнес-результатов, ежегодно создавая больше моделей машинного обучения, тем самым достигая более надежных и предсказуемых бизнес-результатов за счет внушения доверия к модели.
Как преодолеть барьеры качества данных
Когда дело касается качества данных, не следует ждать, пока в производстве возникнет проблема, и затем спешить ее исправить. Данные следует постоянно проверять, независимо от того, где они находятся, на предмет постоянно растущего числа известных проблем. Все заинтересованные стороны должны внести свой вклад, и все данные должны иметь четких и четко определенных владельцев. Поэтому, когда специалиста по обработке данных спрашивают, чем он занимается, он, наконец, может сказать: строит модели машинного обучения и анализирует данные.
Мы перечисляем лучшее облачное хранилище для бизнеса.
Эта статья была создана в рамках канала Expert Insights от TechRadarPro, где мы рассказываем о лучших и ярких умах в области технологий сегодня. Мнения, выраженные здесь, принадлежат автору и не обязательно отражают точку зрения TechRadarPro или Future plc. Если вы заинтересованы в участии, узнайте больше здесь: