Я нашел кое-что интересное в последнем документе по делу Министерства юстиции США против Google. Google обжаловала решение, согласно которому компания должна делиться конфиденциальной информацией с конкурентами.

Фото предоставлено: Мари Хейнс

Ключевые выводы:

  • Google было приказано делиться информацией с конкурентами, чтобы не стать незаконным монополистом. Google не хочет раскрывать свои обширные данные о пользователях.
  • Данные Google о качестве и своевременности страниц защищены авторским правом. Они не хотят его отдавать.
  • Проиндексированные страницы снабжены аннотациями.включая сигналы, идентифицирующие спам-сайты.
  • Если бы спамеры заполучили эти спам-сигналы, остановить спам было бы сложно.
  • Пользовательские данные важны для системы Google Glue. Здесь хранится информация о каждом поисковом запросе, о том, что видел пользователь и как он взаимодействовал с результатами поиска.
  • Пользовательские данные важны для обучения RankEmbed BERT – одна из систем глубокого обучения, лежащих в основе поиска.

Ладно, перейдем к самому интересному!

У Google есть собственные сигналы качества и актуальности страниц.

Это действительно неудивительно. Мне показалось интересным, что сигналы свежести лежат в основе собственных секретов Google.

Пользовательские данные важны в поиске Google, согласно отчету Министерства юстиции Лиз Рид
Источник изображения: Мари Хейнс

Здесь вы можете узнать больше о важности собственных сигналов актуальности Google:

ЧИТАТЬ  Netflix попытался починить ситком 80 -х годов в другом мире с ИИ, но мы дали нам еще один кошмар
Пользовательские данные важны в поиске Google, согласно отчету Министерства юстиции Лиз Рид
Источник изображения: Мари Хейнс

Просканированные страницы помечаются «собственными аннотациями для понимания страниц».

Каждая страница в индексе Google снабжена аннотациями, чтобы ее было легче понять. Сюда входят сигналы для обнаружения спама и дубликатов страниц. Я уже писал о том, как Каждая страница в индексе имеет рейтинг спама..

Пользовательские данные важны в поиске Google, согласно отчету Министерства юстиции Лиз Рид
Фото предоставлено: Мари Хейнс

Оценки спама могут быть использованы для отмены систем ранжирования

Google не хочет делиться информацией об этих ценностях со своими конкурентами.

Пользовательские данные важны в поиске Google, согласно отчету Министерства юстиции Лиз Рид
Источник изображения: Мари Хейнс

Если рейтинги спама будут обнародованы, это может привести к увеличению количества спама и усложнить борьбу со спамом для Google.

Пользовательские данные важны в поиске Google, согласно отчету Министерства юстиции Лиз Рид
Источник изображения: Мари Хейнс

Google создает индекс на основе этих отмеченных страниц.

Страницы, на которые Google добавил аннотации для понимания страниц, организованы в зависимости от того, как часто Google ожидает доступа к контенту и насколько актуальным должен быть контент.

Пользовательские данные важны в поиске Google, согласно отчету Министерства юстиции Лиз Рид
Источник изображения: Мари Хейнс

Лишь часть страниц попадает в индекс Google.

Google утверждает, что предоставление конкурентам списка проиндексированных URL-адресов позволит им «отказаться от сканирования и анализа более широкой сети и вместо этого сосредоточиться на сканировании только той части страниц, которые Google включил в свой индекс». Создание этого индекса стоит Google много времени и денег. Они не хотят отдавать это бесплатно.

Пользовательские данные важны в поиске Google, согласно отчету Министерства юстиции Лиз Рид
Фото предоставлено: Мари Хейнс

Роль пользовательских данных в рейтинговых системах Google

Это самая интересная часть. Мне кажется, что мы не уделяем достаточно внимания тому, как Google использует пользовательские данные. (Оставайтесь со мной YouTube-канал так как скоро я выпущу очень интересное видео с моими мыслями о важности пользовательских данных — вероятно, самого важного фактора в системах ранжирования Google.)

Пользовательские данные используются для построения моделей GLUE и RankEmbed.

Google Glue — огромная таблица активности пользователей. Он собирает текст поисковых запросов, язык, местоположение и тип устройства пользователя, а также информацию о том, что отображалось в поисковой выдаче, на что пользователь нажимал или наводил курсор, как долго он оставался в поисковой выдаче и многое другое.

ЧИТАТЬ  Различные шаги для составления полного документа о выкупе ипотеки - начинающий инвестор

Еще более интересен RankEmbed BERT. RankEmbed BERT — это одна из систем глубокого обучения, лежащих в основе поиска. В Панду Наяк Из нашего заявления мы узнали, что RankEmbed BERT используется для переоценки результатов, возвращаемых традиционными системами ранжирования. RankEmbed BERT обучен на данных о кликах и запросах реальных пользователей..

Системы искусственного интеллекта, лежащие в основе поиска, постоянно учатся совершенствоваться, чтобы предоставлять поисковикам удовлетворительные результаты. Google смотрит на то, на что они нажимают и возвращаются ли они в результаты поиска. Google также проводит живые эксперименты, наблюдая за тем, на что пользователи нажимают и на что остаются. Эти действия помогают обучать RankEmbed BERT. Дальнейшая точная настройка осуществляется через рейтинги оценщиков качества. Скоро я напишу об этом подробнее. В заключение я хотел бы подчеркнуть, что удовлетворенность пользователей — это, безусловно, самая важная вещь, ради которой мы должны оптимизировать!

Из документа Лиз Рид, который мы сегодня анализируем, мы видим, что пользовательские данные используются для обучения, построения и эксплуатации моделей RankEmbed.

Пользовательские данные важны в поиске Google, согласно отчету Министерства юстиции Лиз Рид
Источник изображения: Мари Хейнс

Мы снова узнаем, что пользовательские данные, используемые для обучения этих моделей, включают запрос, местоположение, время поиска и то, как пользователь взаимодействовал с тем, что ему было показано.

Пользовательские данные важны в поиске Google, согласно отчету Министерства юстиции Лиз Рид
Фото предоставлено: Мари Хейнс

Речь идет о действиях, которые пользователи совершают в результатах поиска Google. Что я действительно хочу знать, так это какую роль играют данные Chrome? Проверяет ли Google, взаимодействуют ли пользователи с вашими страницами, заполняют ли ваши формы, создают ли ваши рецепты и т. д.? Я думаю, да. Краткое изложение решения по этому делу отмечает, что данные Chrome используются в системах ранжирования, но не содержат многих деталей.

Пользовательские данные важны в поиске Google, согласно отчету Министерства юстиции Лиз Рид
Источник изображения: Мари Хейнс

Google говорит, что если у кого-то есть пользовательские данные Glue и RankEmbed, он может использовать их для обучения LLM

Эти пользовательские данные являются ключом к успеху Google.

ЧИТАТЬ  Функция обучения произношению в поиске Google
Пользовательские данные важны в поиске Google, согласно отчету Министерства юстиции Лиз Рид
Источник изображения: Мари Хейнс

Стоит прочитать всё целиком Заявление Лиз Рид.

Дополнительные ресурсы:


Этот пост был первоначально опубликован на Мари Хейнс Консалтинг.


Рекомендованное изображение: N Universe/Shutterstock

Source