Прошло всего двадцать четыре часа после того, как Google Gemini был публично выпущен, чтобы кто-то заметил, что чаты публично отображаются в результатах поиска Google. Google быстро отреагировал на утечку информации. Причина, по которой это произошло, весьма удивительна и не так зловеща, как кажется на первый взгляд.

@shemiadhikarath написал в Твиттере:

«Через несколько часов после запуска @Google Gemini такие поисковые системы, как Bing, проиндексировали публичные разговоры Gemini».

Выложили скриншот поиска по сайту gemini.google.com/share/.

Но если вы посмотрите на скриншот, вы увидите сообщение: «Мы хотели бы показать вам здесь описание, но сайт нам этого не позволяет».

Ранним утром во вторник 13 февраля чаты Google Gemini начали исчезать из результатов поиска Google, Google показывал только три результата поиска. К полудню количество утекших чатов Gemini, отображаемых в результатах поиска, сократилось до одного результата.

Скриншот результатов поиска Google для страниц, проиндексированных из поддомена чата Google Gemini.

Как создавались страницы чата Gemini?

Gemini предлагает возможность создать ссылку на общедоступную версию приватного чата.

Google не создает автоматически веб-страницы на основе частных чатов. Пользователи создают страницы чата с помощью ссылки внизу каждого чата.

Снимок экрана: как создать страницу общего чата

Снимок экрана: как создать общедоступную веб-страницу частного чата Google GeminiСнимок экрана: как создать общедоступную веб-страницу частного чата Google Gemini

Почему страницы чата Gemini проиндексировались?

Очевидная причина, по которой страницы чата были просканированы и проиндексированы, заключается в том, что Google забыл поместить файл robots.txt в корень субдомена Gemini (gemini.google.com).

Файл robots.txt — это документ для контроля активности сканеров на веб-сайтах. Издатель может заблокировать определенных сканеров, используя команды, стандартизированные в протоколе Robots.txt.

ЧИТАТЬ  7 способов, которыми компании используют Google Cloud AI

Я проверил файл robots.txt в 4:19 утра 13 февраля и увидел, что он на месте:

Файл robots.txt Google GeminiФайл robots.txt Google Gemini

Затем я проверил Интернет-архив, чтобы узнать, как долго существует файл robots.txt, и обнаружил, что он существует как минимум с 8 февраля, дня, когда было объявлено о приложениях Gemini.

Скриншот роботов Google Gemini. txt из Интернет-архива, показывающий, что он был там 8 февраля 2024 года.Скриншот роботов Google Gemini. txt из Интернет-архива, показывающий, что он был там 8 февраля 2024 года.

Это означает, что очевидная причина сканирования страниц чата — это не правильная причина, а просто самая очевидная причина.

Хотя в субдомене Google Gemini был файл robots.txt, который блокировал веб-сканеры Bing и Google, как они в конечном итоге сканировали эти страницы и индексировали их?

Два способа обнаружения и индексирования страниц приватного чата

  • Возможно где-то есть публичная ссылка.
  • Менее вероятно, но возможно, что они были обнаружены через историю посещений, связанную с файлами cookie.

Скорее всего, есть публичные ссылки.

Я спросил Билла Харцера (@bhartzer) об этом и он обнаружил общедоступная ссылка для одной из проиндексированных страниц:

Публичная ссылка на страницу общего чата Google GeminiПубличная ссылка на страницу общего чата Google Gemini

Итак, теперь мы знаем, что весьма вероятно, что общедоступная ссылка привела к сканированию и индексированию этих страниц Gemini Chat.

Билл Харцер высказал следующее наблюдение:

«Несмотря на то, что URL-адрес Gemini заблокирован в файле robots.txt, в комментарии блога есть ссылка на URL-адрес Gemini, поэтому URL-адрес Gemini индексируется.

Это просто показывает, что Google по-прежнему будет индексировать URL-адреса, сканирование которых заблокировано в файле robots.txt.

Если бы Google действительно хотел убедиться, что URL-адрес Gemini не индексируется, они РАЗРЕШИЛИ бы сканирование файла robots.txt и добавили бы на страницы метатег noindex. Может быть, Google следует последовать собственному совету?»

Почему страницы чата начали выпадать из результатов поиска?

Но если есть общедоступная ссылка, то почему Google вообще начал удалять страницы чата? Создал ли Google внутреннее правило для поискового сканера, исключающее веб-страницы из папки /share/ из поискового индекса, даже если на них есть общедоступные ссылки?

ЧИТАТЬ  Что такое рейтинг кликов и почему важен CTR

Понимание того, как Bing и Google индексируют контент

А теперь действительно интересная часть для всех поисковых фанатов, интересующихся тем, как Google и Bing индексируют контент.

Поисковый индекс Microsoft Bing отреагировал на контент Gemini иначе, чем поиск Google. Ранним утром 13 февраля Google все еще показывал три результата поиска, а Bing показывал только один результат из поддомена. Было, казалось бы, случайное качество того, что было проиндексировано и в каком объеме.

Почему утекли страницы чата Gemini?

Вот известные факты:

  • У Google был файл robots.txt с 8 февраля.
  • И Google, и Bing проиндексировали страницы из поддомена Gemini.google.com.
  • И Google, и Bing могли обнаружить ссылки на чаты и впоследствии проиндексировать их.
  • Поисковые системы проиндексировали контент независимо от файла robots.txt, а затем начали его выгружать.

Это возвращает нас к вопросу о том, почему эти страницы начали выпадать из результатов поиска Google и Bing. Я предполагаю, что страницы чата Google Gemini представляют собой веб-страницы низкого качества, которые не стоит показывать из-за того, что по сути являются длинными поисковыми запросами (site:gemini.google.com/share/). На самом деле нет никакой полезной причины показывать эти страницы в результатах поиска.

Содержимое, заблокированное файлом Robots.txt, все равно можно обнаружить, просканировать и попасть в поисковый индекс, а если страницы полезны, они также могут ранжироваться, если только они не бесполезны. Я думаю, что это может быть так.





Source link