Вы можете получить доступ к огромному количеству маркетинговых данных — от веб-аналитики и поведения клиентов до конкурентного анализа и использования продуктов.
Однако, если данные не являются чистыми, вы не сможете по-настоящему использовать их ценность. Или, что еще хуже, вы можете направить свой маркетинг в неправильном направлении и увидеть уменьшающуюся отдачу.
Джеймс ХантГлавный консультант Vivanti говорит, что очистка и моделирование данных необходимы для извлечения пользы из информации и приобретения знаний и мудрости. В своей лекции в Конференция по маркетинговой аналитике и науке о данных, Он подробно объясняет, почему это необходимо, объясняет основы очистки данных, а также объясняет роль управления и наблюдаемости.
Содержание
Что такое моделирование данных?
Модели данных преобразуют данные во что-то полезное, и вам необходимо разбираться в моделировании данных, чтобы понимать лучшие варианты очистки. Джеймс объясняет, что моделирование данных включает три части: аддитивную, контекстную и предметную.
добавка Это означает, что машинам придется самим решать, как стандартизировать данные. Вы не «исправляете» данные вручную, например, записывая отдельные заглавные буквы в таблицу строчными буквами. На самом деле это было бы уничтожением данных, потому что, как говорит Джеймс: «Мы, люди, очень плохо умеем делать одно и то же дважды».
контекст систематизирует данные, чтобы рассказать историю. Они не добавляют никакой новой информации; Они предполагают существующие данные. Например, контекст транзакции продажи может включать маркетинговые электронные письма, которые видел покупатель, контент социальных сетей, с которыми покупатель взаимодействовал, и другие продукты, которые он просматривал.
домен — это набор всех возможных значений данных для данного элемента. Оно может быть качественным и количественным. Джеймс выделяет эти пять распространенных типов доменов:
- личность – уникальное значение, которое однозначно и незаметно идентифицирует человека, например. Б. адрес электронной почты, номер социального страхования или номер клиента.
- именительный падеж – дополнительная информация, которая недостаточно сильна, чтобы стоять отдельно, например полное имя человека или название продукта.
- Категорически – группировка без каких-либо границ, например, по типу клиента или отрасли; Часто используется для разделения когорт.
- Деньги – валюта, которую можно сравнивать, упорядочивать, агрегировать и дезагрегировать, например B. Общая стоимость заказа или цена за единицу
- Временной – точка или диапазон дат и времени, например Б. Дата регистрации, дата последней покупки или периода лояльности.
Имея базовое понимание моделирования, вы готовы изучить очистку данных.
Какие виды очистки данных существуют?
Джеймс описывает три типа очистки данных — механическое, явное сопоставление и шаблоны и правила:
С механическая очисткаданные очищаются без изменения смысла информации, например. Б. нормализовать регистрозависимость имен и удалить ненужные пробелы. «Это все, что я, как инженер по обработке данных, могу сделать самостоятельно, и никто из-за этого не расстроится», — говорит Джеймс. «Никто не говорит: «Ну, вы убрали пробелы из его имени, значит, это другой человек».
Явное присваивание использует действие, называемое уменьшением мощности, чтобы уменьшить количество уникальных значений, связанных с атрибутом. Он упрощает набор данных за счет группировки значений, сохраняя при этом соответствующую информацию. Эти наборы данных более управляемы и могут улучшить производительность модели.
Например, Джеймс говорит, что поле статуса клиента могло начинаться с двух значений — активного и неактивного. Со временем эта область расширилась и теперь включает приостановленные, отложенные и потенциальные варианты. Явная очистка сопоставления может изменить статус клиента «приостановлено» на значение «активный».
Уборка для Шаблоны и правила Идентифицирует и исправляет несоответствия, неточности или ошибки в данных на основе идентифицируемых структур (например, шаблонов) и ограничений (например, правил).
Стандартные шаблоны включают такие данные, как адреса электронной почты, строки дат и номера телефонов. Отклонения от этой структуры указывают на то, что данные необходимо очистить.
Правила относятся к логическим условиям или ограничениям. Например, если денежные данные в страховом полисе превышают максимальное значение, запись необходимо очистить.
Джеймс говорит, что вы также можете установить правила и шаблоны, чтобы составить карту пути клиента. Допустим, бренду все равно, сколько раз человек открывает и нажимает на свое электронное письмо. Вместо этого речь идет о выявлении тех, кто восприимчив к покупкам, с помощью маркетинговой кампании по электронной почте. Для достижения этой цели можно установить правила очистки данных.
Например, все отправленные электронные письма будут помечены как «E», а все клики будут отмечены как «C», а заказ будет распознаваться как «O». Эти правила сокращают количество данных, чтобы они были максимально полезны для бренда и его маркетинговых целей.
Какую роль играет управление в очистке данных?
«Каждый раз, когда вы очищаете данные, вы принимаете решение. Вы решаете, что актуально; Вы решаете, что важно. Вы сами решаете, что оставить, а что вынести на поверхность», — говорит Джеймс.
Вы должны документировать эти решения по очистке данных во внутреннем репозитории, например в электронной таблице, или использовать систему контроля версий, например систему с открытым исходным кодом. Гит.
Каждое решение должно отвечать на эти четыре вопроса:
- Какое решение было принято?
- Когда это было сделано? Эта привязка к моменту времени помогает при историческом анализе.
- Кто принял решение?
- Почему было принято такое решение? Полезно информировать о будущих действиях. Например, если решение было принято из-за обновлений правительства, отменить его, скорее всего, будет невозможно. Но если решение было принято потому, что группа по обработке данных посчитала, что это лучший путь, изменение курса может остаться реалистичным вариантом, говорит Джеймс.
Давайте вернемся к примеру, где поля статуса клиента свернуты, так что статус «Приостановлено» был сгруппирован в «Активные» клиенты. Вот как можно записать это решение:
«Клиенты с «приостановленным статусом» по-прежнему считаются активными по состоянию на 22 октября 2024 года. Решение было принято Джеймсом Хантом, поскольку картографический анализ показал, что поведение клиентов лучше всего оценивается по активному или неактивному статусу».
«Люди играют решающую роль в процессе управления», — говорит Джеймс. Компьютерные алгоритмы могут предложить шаги по очистке данных, но человек должен быть в курсе, чтобы просмотреть предложения и одобрить или отклонить их.
Что такое наблюдаемость?
Даже после того, как вы настроите правила и шаблоны для обеспечения чистоты данных, некоторые данные будут конфликтовать с этими параметрами. Вместо того, чтобы пропускать эти данные или автоматически очищать их, используйте возможность наблюдения, которая, по словам Джеймса, в 10 раз важнее управления.
Раскрытие метаданных очистки данных может выглядеть так, как показано в примере от клиента Джеймса. Правила очистки данных устанавливают нижний предел размера политики для обнаружения неверных данных. Это хорошо работало около полугода, пока в систему не поступил полис с лимитом ниже установленного в правилах лимита.
Джеймс выделил эту запись, а затем спросил клиента: «Хотите, чтобы мы скорректировали лимит?» Клиент ответил «да», и правило пола данных было обновлено.
«Мы уловили это с помощью цикла наблюдения, сказав: «Вот как мы ожидаем, что данные будут выглядеть». Когда мы его почистили, он выглядел не так. Нам было неудобно принимать это решение (без участия клиента). И именно это дает вам наблюдаемость», — говорит Джеймс.
Он отмечает, что правильная практика наблюдения может сэкономить вам часы, дни, недели, месяцы и массу смущения.
Вы готовы к очистке данных?
Теперь, когда вы узнали о моделировании, очистке, управлении и наблюдении данных, вы можете применить их в своем маркетинге, когда:
- Наборы данных, в которых целостность данных не является идеальной или идеальной.
- Наборы данных с большим количеством уникальных значений (т. е. там, где уменьшение кардинальности может помочь в обработке и анализе)
Где бы вы нашли эти данные? Оно может поступать из различных источников, таких как:
- CRM-платформы
- Записи контактов с клиентами
- Опросы клиентов и формы обратной связи
- Ответы на опрос
- Веб-аналитика
- Поведение клиентов
- Информация о продукте или платформе
- Анализ конкурентов
Начните с тех, которые больше всего выиграют от одного или нескольких из трех типов очистки данных, надлежащего управления и наблюдаемости. Затем вы можете решить, хотите ли вы привлечь для помощи группы данных внутри вашей организации.
ПОДБРАННЫЙ ПОХОЖИЙ КОНТЕНТ:
Изображение на обложке: Джозеф Калиновский/Институт контент-маркетинга.