Использование Google фильтров Блума объясняет более высокую степень фильтрации данных в консоли поиска


В последнем рассрочка Во время ежемесячного сеанса вопросов и ответов Google в рабочее время был задан вопрос относительно большего объема отфильтрованных данных по сравнению с общим объемом данных в Google Search Console.

Этот вопрос вызвал подробный ответ от Гэри Иллиеса, члена команды Google Search Relations, который пролил свет на использование Google фильтров цветения.

Непропорциональные данные в Search Console

Вопрос был такой: «Почему отфильтрованные данные выше, чем общие данные в Search Console, это не имеет никакого смысла».

На первый взгляд это может показаться некоторым противоречием.

Ожидается, что общие данные должны быть более полными и, следовательно, более обширными, чем любое отфильтрованное подмножество.

Тем не менее, это не то, что испытывают пользователи. Что тут происходит?

Консоль поиска и фильтры Блума

Иллиес начинает свой ответ:

«Краткий ответ: мы активно используем так называемые фильтры Блума, потому что нам нужно обрабатывать большой объем данных, а фильтры Блума могут сэкономить нам много времени и памяти.

Когда вы обрабатываете большое количество элементов в наборе (я имею в виду миллиарды, если не триллионы элементов), быстрый поиск становится очень трудным. Вот тут-то и пригодятся фильтры Блума».

Фильтры Блума ускоряют поиск в больших данных, сначала просматривая отдельную коллекцию хешированных или закодированных данных.

Это позволяет проводить более быстрый, но менее точный анализ, объясняет Иллес:

«Поскольку вы сначала ищете хэши, это происходит довольно быстро, но хеширование иногда сопровождается потерей данных, намеренной или нет, и с этими недостающими данными вы сталкиваетесь: меньше данных, которые нужно пройти, означает более точные прогнозы о том, что что-то существует в основном наборе или нет, и именно эти недостающие данные — это то, что вы испытываете: меньше данных, которые нужно пройти, означает более точные прогнозы о том, существует ли что-то в основном наборе или нет.

По сути, фильтры Блума ускоряют поиск, предсказывая, существует ли что-то в наборе данных, но за счет точности, и чем меньше набор данных, тем точнее прогнозы».

Скорость важнее точности: осознанный компромисс

Объяснение Иллиеса показывает намеренный компромисс: скорость и эффективность важнее идеальной точности.

ЧИТАТЬ  Как рассчитывается и измеряется сложность ключевого слова в SEO?

Такой подход может показаться неожиданным, но это необходимая стратегия при работе с огромными объемами данных, которые Google обрабатывает ежедневно.

В итоге

Отфильтрованные данные могут превышать общие данные в Search Console, поскольку Google использует фильтры Блума для быстрого анализа огромных объемов данных.

Фильтры Блума позволяют Google работать с триллионами точек данных, но они жертвуют некоторой точностью.

Этот компромисс является намеренным. Google больше заботится о скорости, чем о 100% точности. Небольшие неточности стоят того, чтобы Google быстро проанализировал данные.

Таким образом, не будет ошибкой увидеть, что отфильтрованные данные превышают общие данные. Так работают фильтры Блума.


Рекомендованное изображение: Татьяна Юрченко/Shutterstock



Source link