Google Discover во многом остается загадкой для издателей и сообщества поискового маркетинга, хотя Google опубликовал официальное руководство о том, что это такое и что, по их мнению, издатели должны знать о нем. Тем не менее, она настолько загадочна, что ее обычно даже не рассматривают как рекомендательную систему, но это именно то, чем она является. Это обзор классической исследовательской работы, показывающей, как масштабировать рекомендательную систему. Хотя это и для YouTube, нетрудно представить, как такую систему можно адаптировать к Google Discover.
Содержание
Рекомендательные системы
Google Discover относится к классу систем, известных как рекомендательные системы. Классическая рекомендательная система, которую я помню, — это система MovieLens, появившаяся еще в 1997 году. Это проект научного факультета университета, который позволял пользователям оценивать фильмы, и на основе этих оценок он рекомендовал фильмы к просмотру. Это сработало так: людям, которым нравятся фильмы такого типа, обычно нравятся и другие фильмы. Но подобные алгоритмы имеют ограничения, из-за которых им не хватает масштаба, необходимого для персонализации рекомендаций для YouTube или Google Discover.
Модель двухбашенной рекомендательной системы
Современный стиль рекомендательных систем иногда называют архитектурой двух башен или моделью двух башен. Модель двух башен возникла как решение для YouTube, хотя в оригинальной исследовательской работе («Глубокие нейронные сети для рекомендаций YouTube») этот термин не используется.
Может показаться нелогичным обращаться к YouTube, чтобы понять, как работает алгоритм Google Discover, но факт заключается в том, что система, которую Google разработал для YouTube, стала основой для масштабирования рекомендательной системы для среды, где огромные объемы контента генерируются каждый час в сутки, 24 часа в сутки.
Это называется архитектурой двух башен, потому что есть два представления, сопоставленных друг с другом, как две башни.
В этой модели, которая обрабатывает первоначальное «извлечение» контента из базы данных, нейронная сеть обрабатывает пользовательскую информацию для создания пользовательского внедрения, в то время как элементы контента представляются своими собственными внедрениями. Эти два представления сопоставляются с использованием оценки сходства, а не объединяются в одной сети.
Я повторюсь, что в исследовательской работе эта архитектура не упоминается как архитектура двух башен, это описание такого подхода, который был создан позже. Итак, хотя в исследовательской работе не используется слово «башня», я собираюсь продолжать использовать его, поскольку оно облегчает визуализацию того, что происходит в такой рекомендательной системе.
Пользовательская башня
User Tower обрабатывает такие вещи, как история просмотров пользователя, токены поиска, местоположение и базовые демографические данные. Он использует эти данные для создания векторного представления, которое отображает конкретные интересы пользователя в математическом пространстве.
Башня предметов
Башня предметов представляет контент с использованием изученных векторов внедрения. В исходной реализации YouTube они обучались вместе с моделью пользователя и сохранялись для быстрого поиска. Это позволяет системе мгновенно сравнивать «координаты» пользователя с миллионами «координат» видео, без необходимости выполнять сложный анализ каждого отдельного видео каждый раз, когда вы обновляете ленту.
Проблема свежего контента
Исследование Google предлагает интересный взгляд на свежесть. Проблема свежести описывается как компромисс между эксплуатацией и исследованием. Система рекомендаций YouTube должна балансировать между показом пользователям контента, который уже известен как популярный (эксплуатация), и предоставлением им нового и непроверенного контента (исследование). Что мотивирует Google показывать новый, но непроверенный контент, по крайней мере, в контексте YouTube, так это то, что пользователи отдают предпочтение новому и свежему контенту.
В исследовательской работе объясняется, почему важен свежий контент:
«Каждую секунду на YouTube загружается многочасовое видео. Рекомендовать недавно загруженный («свежий») контент чрезвычайно важно для YouTube как продукта. Мы постоянно наблюдаем, что пользователи предпочитают свежий контент, но не в ущерб релевантности».
Эта тенденция показывать свежий контент, по-видимому, справедлива и для Google Discover, где Google имеет тенденцию показывать свежий контент по темам, которые лично интересуют пользователей. Вы когда-нибудь замечали, что Google Discover предпочитает свежий контент? Информация, полученная исследователями о предпочтениях пользователей, вероятно, будет перенесена в систему рекомендаций Google Discover. Вывод: регулярное создание контента может быть полезно для появления веб-страниц в Google Discover.
Интересная идея в этой исследовательской работе (я не знаю, верна ли она до сих пор, но она все еще интересна) заключается в том, что исследователи утверждают, что алгоритмы машинного обучения демонстрируют неявную предвзятость в отношении более старого существующего контента, поскольку они обучаются на исторических данных.
Они объясняют:
«Системы машинного обучения часто демонстрируют неявную предвзятость к прошлому, потому что они обучены предсказывать будущее поведение на основе исторических примеров».
Нейронная сеть обучается на прошлых видео и узнает, что вещи, снятые один или два дня назад, были популярны. Но это создает предвзятость в отношении событий, произошедших в прошлом. Они решили проблему актуальности: когда система рекомендует видео пользователю (показывает), для этой временной функции установлено значение ноль дней назад (или немного отрицательное). Это сигнализирует модели о том, что она делает прогноз в самом конце окна обучения, по сути заставляя ее прогнозировать то, что популярно сейчас, а не то, что было в среднем популярно в прошлом.
Точность данных о кликах
Фундаментальное исследование Google также дает представление о неявных сигналах обратной связи с пользователем, которые являются ссылкой на данные о кликах. Исследователи говорят, что такого рода данные редко дают точную информацию об удовлетворенности пользователей.
Исследователи пишут:
«Шум: историческое поведение пользователей на YouTube по своей сути трудно предсказать из-за разреженности и множества ненаблюдаемых внешних факторов. Мы редко получаем достоверную информацию об удовлетворенности пользователей и вместо этого моделируем шумные неявные сигналы обратной связи. Более того, метаданные, связанные с контентом, плохо структурированы без четко определенной онтологии. Наши алгоритмы нуждаются в
чтобы быть устойчивыми к этим конкретным характеристикам наших обучающих данных».
В заключение исследователи заявляют, что такой подход к рекомендательным системам помог увеличить время просмотра пользователями и оказался более эффективным, чем другие системы.
Они пишут:
«Мы описали нашу архитектуру глубокой нейронной сети для рекомендации видео на YouTube, разделив ее на две отдельные задачи: генерацию кандидатов и рейтинг.
Наша модель глубокой совместной фильтрации способна эффективно усваивать множество сигналов и моделировать их взаимодействие с уровнями глубины, превосходя предыдущие подходы матричной факторизации, использовавшиеся на YouTube.Мы продемонстрировали, что использование возраста обучающего примера в качестве входной функции устраняет присущую модели предвзятость к прошлому и позволяет модели представлять зависящее от времени поведение популярных видео. Это улучшило точность результатов офлайн-удержания и значительно увеличило время просмотра недавно загруженных видео в A/B-тестировании.
Ранжирование — это более классическая задача машинного обучения, однако наш подход к глубокому обучению превзошел предыдущие линейные и древовидные методы прогнозирования времени просмотра. Рекомендательные системы, в частности, выигрывают от специализированных функций, описывающих поведение пользователей в прошлом с элементами. Глубокие нейронные сети требуют специальных представлений категориальных и непрерывных функций, которые мы преобразуем с помощью встраивания и квантильной нормализации соответственно».
Хотя этой исследовательской работе уже десять лет, она по-прежнему дает представление о том, как работают рекомендательные системы, и приоткрывает немного тайны из рекомендательных систем, таких как Google Discover. Прочтите оригинальную исследовательскую работу: Глубокие нейронные сети для рекомендаций YouTube
Рекомендованное изображение: Shutterstock/Андрей Емельяненко

