Google опубликовал исследовательскую работу о том, как помочь рекомендательным системам понять, что имеют в виду пользователи, когда взаимодействуют с ними. Их цель в этом новом подходе — преодолеть ограничения, присущие современным рекомендательным системам, и обеспечить более точное и детальное понимание того, что пользователи хотят читать, слышать или видеть на индивидуальном уровне.

Персонализированная семантика

Системы рекомендаций предсказывают, что пользователь захочет прочитать или посмотреть дальше. YouTube, Google Discover и Google News являются примерами рекомендательных систем, рекомендующих пользователям контент. Другими типами рекомендательных систем являются рекомендации по покупкам.

Системы рекомендаций обычно работают путем сбора данных о типах вещей, которые пользователь нажимает, оценивает, покупает и просматривает, а затем использует эти данные, чтобы предлагать дополнительный контент, соответствующий предпочтениям пользователя.

Исследователи назвали эти типы сигналов примитивной обратной связью с пользователем, потому что они не так хороши в выработке рекомендаций, основанных на субъективном суждении человека о том, что смешно, мило или скучно.

Интуиция, лежащая в основе исследования, заключается в том, что развитие LLM дает возможность использовать взаимодействие на естественном языке, чтобы лучше понять, чего хочет пользователь, путем определения семантического намерения.

Исследователи объясняют:

«Интерактивные рекомендательные системы стали многообещающей парадигмой для преодоления ограничений примитивной обратной связи с пользователем, используемой традиционными рекомендательными системами (например, клики, потребление предметов, рейтинги). Они позволяют пользователям более полно выражать намерения, предпочтения, ограничения и контекст, часто используя естественный язык (включая многогранный поиск и диалог).

Однако необходимы дополнительные исследования, чтобы определить, как наиболее эффективно использовать эту обратную связь. Задача состоит в том, чтобы сделать вывод о семантическом намерении пользователя на основе открытых терминов или атрибутов, обычно используемых для описания желаемого элемента. Это критически важно для рекомендательных систем, которые хотят помочь пользователям в повседневном интуитивном использовании естественного языка для уточнения результатов рекомендаций».

Задача мягких атрибутов

Исследователи объяснили, что жесткие атрибуты — это то, что могут понять системы рекомендаций, поскольку они являются объективными базовыми истинами, такими как «жанр, художник, режиссер». У них были проблемы с другими типами атрибутов, так называемыми «мягкими атрибутами», которые являются субъективными и по которым их нельзя сопоставить с фильмами, контентом или элементами продукта.

В исследовательской работе отмечаются следующие особенности мягких атрибутов:

  • «Не существует однозначного источника истины, связывающего такие мягкие атрибуты с объектами.
  • Сами атрибуты могут иметь неточную интерпретацию.
  • И они могут носить субъективный характер (т.е. разные пользователи могут интерпретировать их по-разному)».

Проблема мягких атрибутов — это проблема, которую исследователи хотели решить, и почему исследование называется «Обнаружение персонализированной семантики мягких атрибутов в рекомендательных системах с использованием векторов активации концепций».

ЧИТАТЬ  Рейтинг Twitter в Google резко упал после действий Илона Маска

Новое использование векторов активации концепций (CAV)

Векторы активации концепций (CAV) — это способ изучения моделей ИИ, чтобы понять математические представления (векторы), которые модели используют внутри себя. Они предлагают людям возможность связать эти внутренние векторы с концепциями.

Таким образом, направлением CAV по умолчанию является интерпретация модели. Исследователи изменили это направление, и теперь целью является пользовательская интерпретация и перевод субъективных мягких атрибутов в математические представления для рекомендательных систем. Исследователи обнаружили, что адаптация CAV для интерпретации пользователей позволила использовать векторные представления, которые помогли моделям ИИ обнаруживать тонкие намерения и субъективные человеческие суждения, адаптированные к человеку.

Как они пишут:

«Мы показываем… что наше представление CAV не только точно интерпретирует субъективную семантику пользователей, но также может использоваться для улучшения рекомендаций посредством интерактивной критики статей».

Например, модель может узнать, что пользователи по-разному понимают слово «смешно», и лучше использовать эту персонализированную семантику при выработке рекомендаций.

Проблема, которую решают исследователи, заключается в том, как закрыть семантический разрыв между тем, как люди говорят, и «мышлением» рекомендательных систем.

Люди мыслят понятиями и используют расплывчатые или субъективные описания (так называемые мягкие атрибуты).

Рекомендательные системы «думают» математически: они работают с векторами (списками чисел) в многомерном «пространстве вложения».

Тогда возникает проблема, как сделать субъективный человеческий язык менее двусмысленным, не меняя и не переучивая систему рекомендаций со всеми нюансами. CAV выполняют эту тяжелую работу.

Исследователи объясняют:

«…мы получаем семантику мягких атрибутов на основе представления, изученного самой моделью системы рекомендаций».

Они называют четыре преимущества своего подхода:

«(1) Возможности модели рекомендательной системы направлены на прогнозирование предпочтений пользователей без дальнейших попыток предсказать дополнительную побочную информацию (например, теги), что часто не улучшает производительность рекомендательной системы.

(2) Модель рекомендательной системы может легко адаптировать новые атрибуты без переобучения, если появляются новые источники тегов, ключевых слов или фраз, из которых могут быть получены новые мягкие атрибуты.

(3) Наш подход дает возможность проверить, актуальны ли определенные мягкие атрибуты для прогнозирования предпочтений пользователя. Это позволяет нам сосредоточить внимание на атрибутах, которые наиболее важны для понимания намерений пользователя (например, при объяснении рекомендаций, определении предпочтений или высказывании критики).

(4) Можно изучить мягкую семантику атрибутов/тегов с относительно небольшими объемами размеченных данных в духе предварительного обучения и начального обучения».

Затем они подробно объясняют, как работает система:

«На высоком уровне наш подход работает следующим образом. Мы предполагаем, что у нас есть:

(i) модель совместной фильтрации (например, вероятностная матричная факторизация или двойной кодировщик), которая встраивает элементы и пользователей в скрытое пространство на основе рейтингов пользовательских элементов; И

(ii) (небольшой) набор тегов (т. е. мягких меток атрибутов), предоставляемый подмножеством пользователей для подмножества элементов.

Мы разрабатываем методы, которые присваивают каждому элементу степень наличия у него мягкого атрибута, тем самым определяя семантику этого атрибута. Для этого мы применяем векторы активации концепций (CAV) — метод, недавно разработанный для интерпретируемости моделей машинного обучения — к модели совместного фильтра, чтобы определить, изучена ли она представление атрибута.

Проецирование этого CAV в пространство внедрения обеспечивает (локальную) направленную семантику атрибута, которую затем можно применять к элементам (и пользователям). Кроме того, этот метод можно использовать для определения субъективной природы атрибута, в частности, для определения того, имеют ли разные пользователи разные значения (или смысл тега) при использовании этого тега. Такая персонализированная семантика субъективных атрибутов может иметь решающее значение для информированной интерпретации истинных намерений пользователя при оценке его предпочтений».

Эта система работает?

Одним из интересных результатов является то, что их тест искусственного тега (нечетный год) показал, что уровень точности системы едва превышает случайный выбор, подтверждая их гипотезу о том, что «CAV полезны для идентификации атрибутов/тегов, связанных с предпочтениями».

ЧИТАТЬ  Классификация целевой страницы

Они также обнаружили, что использование CAV в рекомендательных системах помогает понять поведение пользователей, «основанное на критике», и улучшили эти типы рекомендательных систем.

Исследователи назвали четыре преимущества:

«(i) использование представления совместного фильтра для определения атрибутов, имеющих наибольшее отношение к задаче рекомендации;

(ii) различение объективного и субъективного использования тегов;

(iii) определение персонализированной, специфичной для пользователя семантики субъективных атрибутов; И

(iv) Связать семантику атрибутов с представлениями предпочтений, обеспечивая взаимодействие с использованием мягких атрибутов/тегов в примерах критики и других формах выявления предпочтений».

Они обнаружили, что их подход улучшил рекомендации для ситуаций, когда обнаружение мягких атрибутов важно. Использование этого подхода для ситуаций, когда жесткие атрибуты являются более нормой, например, при покупке продукта, — это будущая область исследований, чтобы выяснить, могут ли мягкие атрибуты быть полезны при выработке рекомендаций по продуктам.

Вынос

Исследовательская работа была опубликована в 2024 году, и мне пришлось покопаться, чтобы ее найти, что может объяснить, почему она вообще осталась незамеченной в сообществе поискового маркетинга.

Google протестировал часть этого подхода с помощью алгоритма под названием WALS (взвешенные чередующиеся наименьшие квадраты), реального производственного кода, который является продуктом в Google Cloud для разработчиков.

Два примечания в сноске и в приложении поясняют:

«В файлах CAV данных MovieLens20M с линейными атрибутами используются встраивания, полученные (через WALS) с использованием внутреннего производственного кода, которым нельзя делиться».

…Линейные вложения были изучены (через WALS, Приложение A.3.1) с использованием внутреннего производственного кода, который не может быть выпущен».

«Производственный код» относится к программному обеспечению, которое в настоящее время работает в продуктах Google, ориентированных на пользователя, в данном случае в Google Cloud. Вероятно, это не основной движок Google Discover, но важно отметить, что он показывает, насколько легко его можно интегрировать в существующую систему рекомендаций.

ЧИТАТЬ  Как SEO может помочь компаниям, занимающимся уничтожением, повысить свою видимость в Интернете

Они протестировали эту систему на наборе данных MovieLens20M, общедоступном наборе данных, содержащем 20 миллионов обзоров, причем некоторые тесты проводились с использованием собственной системы рекомендаций Google (WALS). Это подтверждает вывод о том, что этот код можно использовать в работающей системе без необходимости переобучения или модификации.

Вывод, который я вижу в этой исследовательской статье, заключается в том, что это дает рекомендательным системам возможность использовать семантические данные о мягких атрибутах. Google Discover считается подмножеством поиска Google, а шаблоны поиска — это часть данных, которые система использует для отображения контента. Google не сообщает, используют ли они этот метод, но, учитывая положительные результаты, вполне возможно, что этот подход можно будет использовать в рекомендательных системах Google. Если это так, это означает, что рекомендации Google могут быть более чувствительными к субъективной семантике пользователей.

В исследовательской работе упоминаются Google Research (60% кредитов), а также Amazon, Midjourney и Meta AI.

PDF-файл доступен здесь:

Обнаружение персонализированной семантики мягких атрибутов в рекомендательных системах с использованием векторов активации концепций.

Рекомендованное изображение с Shutterstock/Здесь

Source