Гэри Иллиеса из Google спросили, почему отфильтрованные данные выше, чем общие данные в Google Search Console? В котором Гэри объяснил, как работает фильтр, в частности, он использует «фильтр Блума».
Фильтр Блума — это компактная вероятностная структура данных, задуманная Бертоном Ховардом Блумом в 1970 году и используемая для проверки того, является ли элемент членом множества.
Гэри сказал, что фильтр используется потому, что это эффективный и быстрый способ обработки тонны данных и большого количества хранимых данных.
Сказал Гэри на отметка 1:13 в видео о рабочих часах Google SEO: «Короткий ответ: мы активно используем так называемые фильтры Блума, потому что нам нужно обрабатывать много данных, а фильтры Блума могут сэкономить нам много времени и, по сути, хранилища».
Он добавил: «Длинный ответ по-прежнему заключается в том, что мы активно используем фильтры Блума, потому что, опять же, нам нужно обрабатывать много данных, но я также хочу сказать несколько слов о фильтрах Блума. Когда вы обрабатываете большое количество элементов в наборе, и я имею в виду миллиарды предметов, если не триллионы, иногда быстрый поиск вещей становится очень трудным. Здесь пригодятся фильтры Блума. Они позволяют вам обращаться к другому набору, который содержит хеш возможных элементов в основном set, и вы просматриваете данные там, в своем меньшем наборе, поскольку сначала вы ищете хэши».
«Это довольно быстро, но хеширование иногда приводит к потере данных, намеренно или нет. И именно эти недостающие данные — это то, что вы испытываете. Меньше данных, которые нужно пройти, означает более точные прогнозы о том, существует ли что-то в основном наборе или нет. По сути, это происходит довольно быстро. , фильтры Блума ускоряют поиск, предсказывая, существует ли что-то в наборе данных, но за счет точности, и чем меньше набор данных, тем точнее прогнозы», — добавил он.
Вот видео, вставленное в момент начала:
Ох уж эти шутки про фильтр Google Bloom начались:
Обсуждение на форуме Твиттер.