Поисковый маркетолог с острыми глазами обнаружил причину, по которой обзоры ИИ Google показали спам-страницы. В недавнем меморандуме в случае с антимонопольным законодательством Google был показан отрывок, который предлагает подсказку о том, почему это произошло, и размышляет о том, как он отражает уход Google от ссылок как выдающийся фактор ранжирования.
Райан Джонс, основатель Serprecon (LinkedIn Profile), привлек внимание к отрывку в недавнем меморандуме, которое показывает, как Google обосновывает свои модели Близнецов.
Содержание
Заземление генеративных ответов ИИ
Отрывок происходит в разделе о заземлениях ответов с данными поиска. Обычно справедливо предположить, что ссылки играют роль в ранжировании веб -страниц, которые модель ИИ извлекает из поискового запроса во внутреннюю поисковую систему. Поэтому, когда кто -то задает Google AI обзор вопроса, системный запрос Google Search, а затем создает резюме из этих результатов поиска.
Но, видимо, это не так, как это работает в Google. У Google есть отдельный алгоритм, который получает меньше веб -документов и делает это более высокой скоростью.
Отрывок гласит:
«Чтобы обосновать свои модели Близнецов, Google использует проприетарную технологию под названием FastSearch. REM. Tr. AT 3509: 23–3511: 4 (REID). FastSearch основан на сигналах с ливнями — набор сигналов рейтинга поиска — и генерирует сокращенные, ранжированные сетевые результаты, которые модель может использовать для получения основополагаемого. ниже, чем полностью ранжированные веб -результаты поиска ».
Райан Джонс поделился этими идеями:
«Это интересно и подтверждает как то, что многие из нас думали, так и то, что мы видели в ранних тестах. Что это значит? Это означает, что для заземления Google не использует тот же алгоритм поиска. Они нуждаются в том, чтобы он был быстрее, но им также не волнует столько сигналов. Им просто нужен текст, который подтверждает то, что они говорят.
… Вероятно, есть куча спама и качественных сигналов, которые также не вычисляются для FastSearch. Это объясняет, как/почему в ранних версиях мы увидели несколько спам -сайтов и даже наказанные сайты, отображаемые в обзорах ИИ ».
Он продолжает делиться своим мнением, что ссылки не играют здесь роль, потому что заземление использует семантическую значимость.
Что такое FastSearch?
В другом месте меморандум делятся, что FastSearch генерирует ограниченные результаты поиска:
«FastSearch — это технология, которая быстро генерирует ограниченные результаты органического поиска для определенных вариантов использования, таких как заземление LLMS, и получена главным образом из модели с ливнями».
Теперь вопрос в том, что такое модель Ранка?
Меморандум объясняет, что Ранкин-это модель глубокого обучения. Проще говоря, модель глубокого обучения идентифицирует шаблоны в массовых наборах данных и может, например, определить семантические значения и отношения. Он ничего не понимает так же, как человек; Это по сути идентифицируя закономерности и корреляции.
В меморандуме есть отрывок, который объясняет:
«На другом конце спектра находятся инновационные модели глубокого обучения, которые представляют собой модели машинного обучения, которые различают сложные шаблоны в больших наборах данных.… (Аллан)
… Google разработал различные сигналы «верхнего уровня», которые являются входными данными для получения окончательной оценки для веб-страницы. Идентификатор. в 2793: 5–2794: 9 (Аллан) (обсуждение RDXD-20.018). Среди высших сигналов Google-те, которые измеряют качество и популярность веб-страницы. Идентификатор.; RDX0041 на -001.
Сигналы, разработанные с помощью моделей глубокого обучения, таких как Rankembed, также являются одними из лучших сигналов Google ».
Данные пользователя
Rankembed использует данные «пользовательский». Меморандум, в разделе о том, какой вид данных должен предоставить Google конкурентам, описывает Rankembed (на котором основан FastSearch) таким образом:
«Данные на стороне пользователя, используемые для обучения, создания или эксплуатации модели (ы) с ливком,»;
В другом месте он делится:
«Ракембед и его более поздние итерационные рейтинги — ранжируют модели, которые полагаются на два основных источника данных: _____% от 70 дней в журналах поиска плюс оценки, генерируемые оценщиками человека, и используемые Google для измерения качества результатов органического поиска».
Затем:
«Сама модель с ликованием ранга представляет собой систему глубокого обучения на основе AI, которая имеет сильное естественное понимание. Это позволяет модели более эффективно определять лучшие документы для извлечения, даже если в запросе отсутствуют определенные термины. PXR0171 при -086 (« поиск внедрения эффективен при семантическом сопоставлении документов и запросов »);
… Ранкимед обучается на 1/100 -м данных, используемых для обучения более ранних моделей ранжирования, но обеспечивает более высокие результаты поиска.
… Ранкирб, особенно помог Google улучшить свои ответы на запросы длинного хвоста.
… Среди базовых данных обучения есть информация о запросе, в том числе существенные термины, которые Google получил от запроса, и результирующие веб -страницы.
… Данные, лежащие в основе моделей, представляют собой комбинацию данных кликов и окрашивания и оценки веб-страниц человеческими оценщиками.
… Ранкембедберт должен быть переподготовлен, чтобы отразить свежие данные … »
Новый взгляд на поиск искусственного интеллекта
Правда ли, что ссылки не играют роль в выборе веб -страниц для обзоров искусственного интеллекта? Google Fastsearch приоритет скорости. Райан Джонс предполагает, что это может означать, что Google использует несколько индексов, с одним специфичным для FastSearch, состоящей из сайтов, которые, как правило, посещают. Это может быть отражением линейной части FastSearch, которая, как говорят, является комбинацией «данных кликов и Query и человеческих оценщиков.
Что касается данных о оценке человека, с миллиардами или триллионами страниц в индексе, оценщики не могли бы вручную оценить больше, чем крошечная фракция. Таким образом, из этого следует, что данные оценщики человека используются для предоставления меченных качеством примеров для обучения. Маркированные данные-это примеры, на которые обучена модель, так что шаблоны, присущие идентификации высококачественной страницы или страницы низкого качества, могли стать более очевидными.
Избранное изображение от Shutterstock/Studio Cookie