Поисковый маркетолог с острыми глазами обнаружил причину, по которой обзоры ИИ Google показали спам-страницы. В недавнем меморандуме в случае с антимонопольным законодательством Google был показан отрывок, который предлагает подсказку о том, почему это произошло, и размышляет о том, как он отражает уход Google от ссылок как выдающийся фактор ранжирования.

Райан Джонс, основатель Serprecon (LinkedIn Profile), привлек внимание к отрывку в недавнем меморандуме, которое показывает, как Google обосновывает свои модели Близнецов.

Заземление генеративных ответов ИИ

Отрывок происходит в разделе о заземлениях ответов с данными поиска. Обычно справедливо предположить, что ссылки играют роль в ранжировании веб -страниц, которые модель ИИ извлекает из поискового запроса во внутреннюю поисковую систему. Поэтому, когда кто -то задает Google AI обзор вопроса, системный запрос Google Search, а затем создает резюме из этих результатов поиска.

Но, видимо, это не так, как это работает в Google. У Google есть отдельный алгоритм, который получает меньше веб -документов и делает это более высокой скоростью.

Отрывок гласит:

«Чтобы обосновать свои модели Близнецов, Google использует проприетарную технологию под названием FastSearch. REM. Tr. AT 3509: 23–3511: 4 (REID). FastSearch основан на сигналах с ливнями — набор сигналов рейтинга поиска — и генерирует сокращенные, ранжированные сетевые результаты, которые модель может использовать для получения основополагаемого. ниже, чем полностью ранжированные веб -результаты поиска ».

Райан Джонс поделился этими идеями:

«Это интересно и подтверждает как то, что многие из нас думали, так и то, что мы видели в ранних тестах. Что это значит? Это означает, что для заземления Google не использует тот же алгоритм поиска. Они нуждаются в том, чтобы он был быстрее, но им также не волнует столько сигналов. Им просто нужен текст, который подтверждает то, что они говорят.

… Вероятно, есть куча спама и качественных сигналов, которые также не вычисляются для FastSearch. Это объясняет, как/почему в ранних версиях мы увидели несколько спам -сайтов и даже наказанные сайты, отображаемые в обзорах ИИ ».

Он продолжает делиться своим мнением, что ссылки не играют здесь роль, потому что заземление использует семантическую значимость.

ЧИТАТЬ  Как легко добавить нескольких авторов для сообщений в WordPress? » Ранг Математика

Что такое FastSearch?

В другом месте меморандум делятся, что FastSearch генерирует ограниченные результаты поиска:

«FastSearch — это технология, которая быстро генерирует ограниченные результаты органического поиска для определенных вариантов использования, таких как заземление LLMS, и получена главным образом из модели с ливнями».

Теперь вопрос в том, что такое модель Ранка?

Меморандум объясняет, что Ранкин-это модель глубокого обучения. Проще говоря, модель глубокого обучения идентифицирует шаблоны в массовых наборах данных и может, например, определить семантические значения и отношения. Он ничего не понимает так же, как человек; Это по сути идентифицируя закономерности и корреляции.

В меморандуме есть отрывок, который объясняет:

«На другом конце спектра находятся инновационные модели глубокого обучения, которые представляют собой модели машинного обучения, которые различают сложные шаблоны в больших наборах данных.… (Аллан)

… Google разработал различные сигналы «верхнего уровня», которые являются входными данными для получения окончательной оценки для веб-страницы. Идентификатор. в 2793: 5–2794: 9 (Аллан) (обсуждение RDXD-20.018). Среди высших сигналов Google-те, которые измеряют качество и популярность веб-страницы. Идентификатор.; RDX0041 на -001.

Сигналы, разработанные с помощью моделей глубокого обучения, таких как Rankembed, также являются одними из лучших сигналов Google ».

Данные пользователя

Rankembed использует данные «пользовательский». Меморандум, в разделе о том, какой вид данных должен предоставить Google конкурентам, описывает Rankembed (на котором основан FastSearch) таким образом:

«Данные на стороне пользователя, используемые для обучения, создания или эксплуатации модели (ы) с ливком,»;

В другом месте он делится:

«Ракембед и его более поздние итерационные рейтинги — ранжируют модели, которые полагаются на два основных источника данных: _____% от 70 дней в журналах поиска плюс оценки, генерируемые оценщиками человека, и используемые Google для измерения качества результатов органического поиска».

Затем:

«Сама модель с ликованием ранга представляет собой систему глубокого обучения на основе AI, которая имеет сильное естественное понимание. Это позволяет модели более эффективно определять лучшие документы для извлечения, даже если в запросе отсутствуют определенные термины. PXR0171 при -086 (« поиск внедрения эффективен при семантическом сопоставлении документов и запросов »);

… Ранкимед обучается на 1/100 -м данных, используемых для обучения более ранних моделей ранжирования, но обеспечивает более высокие результаты поиска.

… Ранкирб, особенно помог Google улучшить свои ответы на запросы длинного хвоста.

… Среди базовых данных обучения есть информация о запросе, в том числе существенные термины, которые Google получил от запроса, и результирующие веб -страницы.

… Данные, лежащие в основе моделей, представляют собой комбинацию данных кликов и окрашивания и оценки веб-страниц человеческими оценщиками.

… Ранкембедберт должен быть переподготовлен, чтобы отразить свежие данные … »

Новый взгляд на поиск искусственного интеллекта

Правда ли, что ссылки не играют роль в выборе веб -страниц для обзоров искусственного интеллекта? Google Fastsearch приоритет скорости. Райан Джонс предполагает, что это может означать, что Google использует несколько индексов, с одним специфичным для FastSearch, состоящей из сайтов, которые, как правило, посещают. Это может быть отражением линейной части FastSearch, которая, как говорят, является комбинацией «данных кликов и Query и человеческих оценщиков.

ЧИТАТЬ  Необычная проблема вынуждает НАСА отменить выход в открытый космос на МКС | Цифровые тенденции

Что касается данных о оценке человека, с миллиардами или триллионами страниц в индексе, оценщики не могли бы вручную оценить больше, чем крошечная фракция. Таким образом, из этого следует, что данные оценщики человека используются для предоставления меченных качеством примеров для обучения. Маркированные данные-это примеры, на которые обучена модель, так что шаблоны, присущие идентификации высококачественной страницы или страницы низкого качества, могли стать более очевидными.

Избранное изображение от Shutterstock/Studio Cookie



Source link