Во время курортного сезона в США было опубликовано несколько сообщений о предполагаемой утечке данных, связанных с рейтингом Google. Первые сообщения об утечках были сосредоточены на «подтверждении» убеждений, которых долгое время придерживался Рэнд Фишкин, но мало обсуждался контекст информации и ее фактическое значение.

Контекст имеет значение: хранилище документов AI

Утечка документа относится к общедоступной платформе Google Cloud под названием Document AI Warehouse, которая используется для анализа, организации, поиска и хранения данных. Данная общедоступная документация имеет право Задокументируйте обзор AI Warhouse. А почта в Facebook сообщает, что «утечка» данных — это «внутренняя версия» общедоступной документации Document AI Warehouse. Это контекст этих данных.

Снимок экрана: документ AI Warehouse

@DavidGQuaid написал в Твиттере:

«Думаю, понятно, что, как следует из названия, это внешний API для создания хранилища документов».

Кажется, это опровергает идею о том, что «утечка» данных является внутренней информацией поиска Google.

Насколько нам известно на данный момент, «утечка данных» имеет сходство с содержимым общедоступной страницы Document AI Warehouse.

Утечка данных внутреннего поиска?

Оригинал почта SparkToro не утверждает, что данные получены из поиска Google. Утверждается, что такое заявление сделал человек, отправивший данные Рэну Фишкину.

Одна из вещей, которые меня восхищают в Рэнде Фишкине, — это его скрупулезная точность в написании, особенно когда дело касается предостережений. Рэнд особо отмечает, что человек, предоставивший данные, утверждает, что данные были получены из поиска Google. Никаких доказательств, только утверждение.

Он пишет:

«Я получил электронное письмо от человека, утверждающего, что у него есть доступ к массовой утечке документации API из поискового отдела Google».

Сам Фишкин не утверждает, что данные были проверены бывшими сотрудниками Google как полученные из поиска Google. Он пишет, что такое заявление сделал человек, отправивший данные по электронной почте.

«В электронном письме также утверждалось, что подлинность этих просочившихся документов была подтверждена бывшими сотрудниками Google и что эти бывшие сотрудники и другие поделились дополнительной частной информацией о поисковых операциях Google».

Фишкин пишет о последующей видеовстрече, на которой информатор рассказал, что его контакт с бывшими сотрудниками Google состоялся в рамках встречи с ними на мероприятии поисковой индустрии. Опять же, мы должны верить источникам информации о бывших сотрудниках Google и тому, что они сделали свои заявления после тщательного изучения данных, а не неформального комментария.

ЧИТАТЬ  Теперь легко создавать кампании

Фишкин пишет, что связался по этому поводу с тремя бывшими сотрудниками Google. Примечательно то, что эти бывшие сотрудники Google не подтвердили явным образом, что данные были внутренними для Google Search. Они только подтвердили, что данные похожи на внутреннюю информацию Google, а не на то, что они получены из поиска Google.

Фишкин пишет то, что ему рассказали бывшие сотрудники Google:

  • «Когда я там работал, у меня не было доступа к этому коду. Но это определенно выглядит реальным».
  • «Он имеет все признаки внутреннего API Google».
  • «Это API на основе Java. А кто-то потратил много времени на соблюдение собственных внутренних стандартов Google в отношении документации и именования».
  • «Мне нужно больше времени, чтобы убедиться, но это соответствует внутренним документам, о которых я знаю».
  • «Ничто из того, что я видел в кратком обзоре, не указывает на то, что это нечто иное, чем заслуживающее доверия».

Сказать, что что-то пришло из поиска Google, и сказать, что оно пришло из Google, — это две разные вещи.

Сохраняйте непредвзятость

Когда дело доходит до данных, важно сохранять непредвзятость, поскольку большая их часть не подтверждена. Например, неизвестно, является ли это документом внутренней поисковой группы. По этой причине, вероятно, не стоит извлекать из этих данных какие-либо практические советы по SEO.

Кроме того, нецелесообразно анализировать данные для конкретного подтверждения давних убеждений. Вот как вы попадаете в ловушку предвзятости подтверждения.

А определение предвзятость подтверждения:

«Предвзятость подтверждения — это тенденция искать, интерпретировать, отдавать предпочтение и вспоминать информацию таким образом, который подтверждает или поддерживает предыдущие убеждения или ценности».

Предвзятость подтверждения заставляет человека отрицать вещи, которые эмпирически верны. Например, существует давняя идея, согласно которой Google автоматически исключает новый веб-сайт из рейтинга, — теория, называемая «песочницей». Каждый день люди сообщают, что их новые веб-сайты и страницы почти сразу же попадают в первую десятку результатов поиска Google.

ЧИТАТЬ  Google и Bing посетили мероприятие IETF в Дублине, чтобы улучшить сканирование и контроль искусственного интеллекта

Но если вы твердо верите в концепцию «песочницы», вы просто проигнорируете такой реальный наблюдаемый опыт, независимо от того, сколько людей наблюдают обратное.

Бренда Мэлоун, старший внештатный технический стратег SEO и веб-разработчик (профиль в LinkedIn)отправил мне сообщение о претензиях к песочнице:

«Я знаю по личному опыту, что теория песочницы неверна. Я только что проиндексировал личный блог с двумя постами за два дня. Невозможно, чтобы небольшой веб-сайт с двумя сообщениями был проиндексирован в соответствии с теорией «песочницы».

Вывод здесь таков: если документация окажется полученной в результате поиска в Google, неправильный способ анализа данных — искать подтверждение давних убеждений.

Что такое утечка данных Google?

Есть пять вещей, на которые следует обратить внимание в связи с утечкой данных:

  1. Контекст утечки информации неизвестен. Связаны ли они с поиском Google? Они служат другим целям?
  2. Цель данных. Была ли информация использована для фактических результатов поиска? Или они использовались внутри компании для управления данными или манипулирования ими?
  3. Бывшие сотрудники Google не подтвердили, что данные относятся именно к поиску Google. Они просто подтвердили, что они похоже из Google.
  4. Сохраняйте непредвзятость. Если вы ищете подтверждение давних убеждений, угадайте, что? Вы найдете их повсюду. Это называется предвзятостью подтверждения.
  5. Есть свидетельства того, что данные связаны с исходящим API для создания хранилища документов.

Что другие говорят об «утечке» документов

Райан Джонс, обладающий не только обширным опытом в области SEO, но и отличными навыками в области компьютерных наук, поделился некоторыми полезными наблюдениями о так называемой утечке данных.

Райан написал в Твиттере:

«Мы не знаем, предназначено ли это для производства или тестирования. Я подозреваю, что это в основном для тестирования возможных изменений.

Мы не знаем, что используется в Интернете или в других отраслях. Некоторые вещи можно использовать только для Google Home, новостей и т. д.

Мы не знаем, что является входными данными для алгоритма ML и что используется для его обучения. Я предполагаю, что клики не являются прямым вводом, а используются для обучения модели прогнозированию кликабельности. (Помимо повышения тренда)

Я также подозреваю, что некоторые из этих полей применимы только к наборам обучающих данных, а не ко всем сайтам.

Я говорю, что Google не лгал? Нисколько. Но давайте посмотрим на эту утечку со скептицизмом и без предубеждений».

@DavidGQuaid написал в Твиттере:

«Мы также не знаем, предназначено ли это для поиска в Google или для поиска документов в Google Cloud.

Похоже, что API работают по принципу «выбирай и выбирай», поэтому я не ожидаю, что алгоритм будет работать. Что, если инженер захочет пропустить все эти проверки качества? Это похоже на то, что я ищу приложение для хранилища контента для «Я хочу создать базу данных знаний всей моей компании»

Имеют ли «утекшие» данные какое-либо отношение к поиску Google?

На данный момент нет убедительных доказательств того, что эти «утечки» данных действительно поступили из Google Search. Существует огромная путаница относительно цели этих данных. Стоит отметить, что есть свидетельства того, что эти данные представляют собой просто «внешний API для создания хранилища документов, как следует из названия» и никоим образом не связаны с рейтингом веб-сайтов в поиске Google.

ЧИТАТЬ  Исчезновение Amazon Prime Video может предвещать будущее без сервиса

Вывод о том, что эти данные были получены не из поиска Google, на данный момент не ясен, но доказательства, похоже, указывают в этом направлении.

Рекомендованное изображение с сайта Shutterstock/Jaaak

Source