Google анонсировал новый мультиветорный алгоритм поиска под названием Muvera, который ускоряет поиск и рейтинг и повышает точность. Алгоритм можно использовать для поиска, рекомендательных систем (таких как YouTube) и для обработки естественного языка (NLP).

Вектор встраивает в поиск

Векторное включение — это многомерное представление о отношениях между словами, тем и фразами. Это позволяет машинам понимать сходство с помощью шаблонов, таких как слова, которые появляются в одном и том же контексте или фрах, которые означают одни и те же вещи. Слова и фразы, которые связаны с промежутками, находятся ближе друг к другу.

  • Слова «король Лир» будут близок к фразе «Шекспировская трагедия».
  • Слова «Сон в летнюю ночь» займут пространство рядом с «комедией Шекспира».
  • «Король Лир» и «Сон в летнюю ночь» будут расположены в пространстве недалеко от Шекспира.

Расстояния между словами, фразами и понятиями (технически математическая мера сходства) определяют, насколько тесно связанна с другой. Эти шаблоны позволяют машине выводить сходства между ними.

Muvera решает неотъемлемая проблема мульти-векторных внедрений

Исследовательская статья Muvera гласит, что нейронные встраивания были особенностью поиска информации в течение десяти лет и ссылается на исследовательскую газету Colbert Mudeltector Model с 2020 г.

«В последнее время, начиная с Landmark Colbert Paper, многоветорные модели, которые производят набор встраивания на точку данных, достигли заметно превосходной производительности для ИК-задач. К сожалению, использование этих моделей для ИК является вычислительным уровнем дорогостоящим из-за повышенной сложности извлечения и оценки».

Объявление Google о Muvera повторяет эти недостатки:

«… Недавние достижения, в частности, внедрение многоклеревных моделей, таких как Colbert, продемонстрировали значительно улучшенную производительность в ИК-задачах. Хотя этот мультиветорный подход повышает точность и позволяет извлекать более важные документы, он вводит существенную вычислительную задачу. В частности, повышенное количество эмпеддингов и сложность многоцелевой оценки сходства значительно более дорогим».

Может ли быть преемником технологии Google Rankembed?

Антимонопольный иск Министерства юстиции Соединенных Штатов (Министерство юстиции) привел к показаниям, которые показали, что один из сигналов, используемых для создания страниц результатов поисковой системы (SERP), называется Rankembed, которая была описана так:

«Ракембед — это двойная модель энкодера, которая внедряет как запрос, так и документ в пространство внедрения. Внедрение пространства учитывает семантические свойства запроса и документа в дополнение к другим сигналам. Понимание и ранжирование тогда являются точечным продуктом (мера расстояния в пространстве встраивания)… чрезвычайно быстро; высокое качество по общим вопросам, но могут выполнять плохо для хвостовых запросов…»)

Muvera-это техническое достижение, которое учитывает ограничения производительности и масштабирования многоклереровных систем, которые сами являются шагом за пределами моделей с двойным кодером (например, Rankembed), обеспечивая большую семантическую глубину и обработку характеристик хвостового запроса.

ЧИТАТЬ  ICYMI: 7 крупнейших технологических новостей недели: от утечек телефонов Apple и Samsung до анонса Nintendo Switch 2

Прорыв представляет собой метод, называемый фиксированным размерным кодированием (FDE), который делит пространство встраивания на секции и объединяет векторы, которые попадают в каждый раздел, чтобы создать один вектор с фиксированной длиной, что делает его быстрее для поиска, чем сравнение нескольких векторов. Это позволяет эффективно использоваться в масштабах мульти-векторных моделей, улучшая скорость извлечения, не жертвуя точностью, которая исходит от более богатого семантического представления.

Согласно объявлению:

«В отличие от одного вектора встраивания, мультиветорные модели представляют каждую точку данных с набором встроенных и используют более сложные функции сходства, которые могут захватывать более богатые отношения между данными данных.

Хотя этот мультиветорный подход повышает точность и позволяет извлекать более соответствующие документы, он вводит существенные вычислительные проблемы. В частности, увеличение числа внедрений и сложность многоклеревного сходства делают поиск значительно более дорогим.

В «Muvera: Multy-Vector Revieval с помощью фиксированных размерных кодировки» мы вводим новый мультиветорный алгоритм поиска, предназначенный для преодоления разрыва в эффективности между одно- и многоквартирным поиском.

… Этот новый подход позволяет нам использовать высокооптимизированные алгоритмы MIPS для извлечения первоначального набора кандидатов, которые затем могут быть повторно оценить с точным сходством многоклера, что позволяет эффективно извлекать многоклеточный поиск без жертвы точений ».

Модели с несколькими векторами могут предоставлять более точные ответы, чем модели с двумя обморожниками, но эта точность достигается за счет интенсивных вычислительных требований. Muvera решает проблемы сложности мульти-векторных моделей, тем самым создавая способ достижения большей точности многоклеточных подходов без высоких вычислительных требований.

Что это значит для SEO?

Muvera показывает, как современный рейтинг поиска все чаще зависит от суждений сходства, а не старомодных ключевых сигналов, на которые часто сосредоточены инструменты SEO и SEO. SEO и издатели могут пожелать перенести свое внимание с точной сопоставления фразы, соответствующего согласованию с общим контекстом и намерением запроса. Например, когда кто-то ищет «Men Medium Medium» вельветовых курток », система, использующая похожие на Muvera, с большей вероятностью будет ранжировать страницы, которые фактически предлагают эти продукты, а не страницы, на которых просто упоминается« вельветные куртки »и включают слово« средний »в попытке соответствовать запросу.

ЧИТАТЬ  Как загрузить несколько идентификатор контейнера Manager Google Tag Manager | Маршировать

Прочитайте объявление Google:

Muvera: Поиск мультивектора так же быстро, как и один векторный поиск

Показанное изображение от Shutterstock/Bluestord



Source link