Я нашел кое-что интересное в последнем документе по делу Министерства юстиции США против Google. Google обжаловала решение, согласно которому компания должна делиться конфиденциальной информацией с конкурентами.
Содержание
Ключевые выводы:
- Google было приказано делиться информацией с конкурентами, чтобы не стать незаконным монополистом. Google не хочет раскрывать свои обширные данные о пользователях.
- Данные Google о качестве и своевременности страниц защищены авторским правом. Они не хотят его отдавать.
- Проиндексированные страницы снабжены аннотациями.включая сигналы, идентифицирующие спам-сайты.
- Если бы спамеры заполучили эти спам-сигналы, остановить спам было бы сложно.
- Пользовательские данные важны для системы Google Glue. Здесь хранится информация о каждом поисковом запросе, о том, что видел пользователь и как он взаимодействовал с результатами поиска.
- Пользовательские данные важны для обучения RankEmbed BERT – одна из систем глубокого обучения, лежащих в основе поиска.
Ладно, перейдем к самому интересному!
У Google есть собственные сигналы качества и актуальности страниц.
Это действительно неудивительно. Мне показалось интересным, что сигналы свежести лежат в основе собственных секретов Google.

Здесь вы можете узнать больше о важности собственных сигналов актуальности Google:

Просканированные страницы помечаются «собственными аннотациями для понимания страниц».
Каждая страница в индексе Google снабжена аннотациями, чтобы ее было легче понять. Сюда входят сигналы для обнаружения спама и дубликатов страниц. Я уже писал о том, как Каждая страница в индексе имеет рейтинг спама..

Оценки спама могут быть использованы для отмены систем ранжирования
Google не хочет делиться информацией об этих ценностях со своими конкурентами.

Если рейтинги спама будут обнародованы, это может привести к увеличению количества спама и усложнить борьбу со спамом для Google.

Google создает индекс на основе этих отмеченных страниц.
Страницы, на которые Google добавил аннотации для понимания страниц, организованы в зависимости от того, как часто Google ожидает доступа к контенту и насколько актуальным должен быть контент.

Лишь часть страниц попадает в индекс Google.
Google утверждает, что предоставление конкурентам списка проиндексированных URL-адресов позволит им «отказаться от сканирования и анализа более широкой сети и вместо этого сосредоточиться на сканировании только той части страниц, которые Google включил в свой индекс». Создание этого индекса стоит Google много времени и денег. Они не хотят отдавать это бесплатно.

Роль пользовательских данных в рейтинговых системах Google
Это самая интересная часть. Мне кажется, что мы не уделяем достаточно внимания тому, как Google использует пользовательские данные. (Оставайтесь со мной YouTube-канал так как скоро я выпущу очень интересное видео с моими мыслями о важности пользовательских данных — вероятно, самого важного фактора в системах ранжирования Google.)
Пользовательские данные используются для построения моделей GLUE и RankEmbed.
Google Glue — огромная таблица активности пользователей. Он собирает текст поисковых запросов, язык, местоположение и тип устройства пользователя, а также информацию о том, что отображалось в поисковой выдаче, на что пользователь нажимал или наводил курсор, как долго он оставался в поисковой выдаче и многое другое.
Еще более интересен RankEmbed BERT. RankEmbed BERT — это одна из систем глубокого обучения, лежащих в основе поиска. В Панду Наяк Из нашего заявления мы узнали, что RankEmbed BERT используется для переоценки результатов, возвращаемых традиционными системами ранжирования. RankEmbed BERT обучен на данных о кликах и запросах реальных пользователей..
Системы искусственного интеллекта, лежащие в основе поиска, постоянно учатся совершенствоваться, чтобы предоставлять поисковикам удовлетворительные результаты. Google смотрит на то, на что они нажимают и возвращаются ли они в результаты поиска. Google также проводит живые эксперименты, наблюдая за тем, на что пользователи нажимают и на что остаются. Эти действия помогают обучать RankEmbed BERT. Дальнейшая точная настройка осуществляется через рейтинги оценщиков качества. Скоро я напишу об этом подробнее. В заключение я хотел бы подчеркнуть, что удовлетворенность пользователей — это, безусловно, самая важная вещь, ради которой мы должны оптимизировать!
Из документа Лиз Рид, который мы сегодня анализируем, мы видим, что пользовательские данные используются для обучения, построения и эксплуатации моделей RankEmbed.

Мы снова узнаем, что пользовательские данные, используемые для обучения этих моделей, включают запрос, местоположение, время поиска и то, как пользователь взаимодействовал с тем, что ему было показано.

Речь идет о действиях, которые пользователи совершают в результатах поиска Google. Что я действительно хочу знать, так это какую роль играют данные Chrome? Проверяет ли Google, взаимодействуют ли пользователи с вашими страницами, заполняют ли ваши формы, создают ли ваши рецепты и т. д.? Я думаю, да. Краткое изложение решения по этому делу отмечает, что данные Chrome используются в системах ранжирования, но не содержат многих деталей.

Google говорит, что если у кого-то есть пользовательские данные Glue и RankEmbed, он может использовать их для обучения LLM
Эти пользовательские данные являются ключом к успеху Google.

Стоит прочитать всё целиком Заявление Лиз Рид.
Дополнительные ресурсы:
Этот пост был первоначально опубликован на Мари Хейнс Консалтинг.
Рекомендованное изображение: N Universe/Shutterstock

