Google опубликовал исследовательский документ с описанием того, как он извлекает информацию о «услугах» с местных бизнес -сайтов, чтобы добавить ее в бизнес -профили в картах Google и поиске. Алгоритм описывает конкретные факторы релевантности и подтверждает, что система успешно использовалась в течение года.
Что делает этот исследовательский документ особенно примечательным, так это то, что один из авторов — Марк Наджорк, выдающийся ученый из Google, который связан со многими вехами в поисках информации, обработке естественного языка и искусственном интеллекте.
Цель этой системы состоит в том, чтобы упростить пользователям найти местные предприятия, которые предоставляют услуги, которые они ищут. Документ был опубликован в 2024 году (согласно интернет -архиву) и датируется 2023 году.
Исследовательская статья объясняет:
«… Чтобы уменьшить усилия пользователей, мы разработали и развернули конвейер для автоматического извлечения типов заданий с бизнес -сайтов. Например, если веб -страница, принадлежащая сантехнической бизнесу, говорится:« Мы предоставляем туалетную установку и сервис ремонта смесителей », нашу конвейера выводит туалетную установку и ремонт смесителя в качестве типов заданий для этого бизнеса».
Содержание
Система использует Bert
Google использовал модель языка BERT, чтобы классифицировать, описывают ли фразы, извлеченные с бизнес -сайтов реальные типы работы. Берт был настраирован на маркированных примерах и дал дополнительный контекст, такой как структура веб-сайта, шаблоны URL и бизнес-категорию, чтобы повысить точность без жертвоприношения масштабируемости.
Разработка локальной системы поиска
Первым шагом для создания системы для ползания и извлечения информации о типе работы было создание учебных данных с нуля. Они выбрали миллиарды домашних страниц, которые перечислены в профилях Google Business, и извлекали информацию типа работы из таблиц и форматированных списков на домашних страницах или страницах, которые находились на один клик от домашних страниц. Данные типа работы стали набором семян типов заданий.
Извлеченные данные типа задания использовались в качестве поисковых запросов, дополненных расширением запроса (синонимы) для расширения списка типов заданий, чтобы включить все возможные вариации фраз типа задания.
Второй шаг: исправление проблемы релевантности
Исследователи Google применили свою систему на миллиардах страниц, и это не сработало так, как предполагалось, потому что на многих страницах были фразы типа работы, которые не описывали предлагаемые услуги.
Исследовательская статья объясняет:
«Мы обнаружили, что многие страницы упоминают имена типов заданий для других целей, таких как давление советов по жизни. Например, веб -страница, которая учит читателей справляться с постельными клопами, может содержать предложение, подобное решению, состоит в том, чтобы называть услуги по уборке дома, если вы находите постельные клопы в вашем доме. Они обычно предоставляют такие услуги, как контроль постельных клопок.
Ограничение ползания и индексации на выявление фраз типа задания привело к ложным срабатыванию. Решением состояло в том, чтобы включить предложения, которые окружали фразы ключевых слов, чтобы они могли лучше понять контекст фраз типа работы.
Успех использования окружающего текста объясняется:
«Как показано в таблице 2, Jobmodelsurround работает значительно лучше, чем Jobmodel, что говорит о том, что окружающие слова действительно могут объяснить намерение упоминания типа работы семян. Это успешно улучшает семантическое понимание, не обрабатывая весь текст каждой страницы, сохраняя эффективные наши модели».
SEO Insight
Описанный локальный алгоритм поиска преднамеренно исключает всю информацию на странице и нулю в фразах ключевых слов типа работы, а также окружающие слова и фразы вокруг этих ключевых слов. Это показывает важность того, как слова, вокруг важных фраз ключевых слов, могут предоставить контекст для фраз ключевых слов и облегчить для Clawlers Google понять, о чем страница без необходимости обрабатывать всю веб -страницу.
SEO Insight
Другое понимание — это то, что Google не индексирует всю веб -страницу с ограниченной целью определения фраз типа задания. Алгоритм — это охота на фразу ключевого слова и окружающие фразы ключевых слов.
SEO Insight
Концепция анализа только части страницы аналогична аннотации центральной части Google, где раздел контента идентифицируется как основная тема страницы. Я не говорю, что это связано. Я просто указываю на одну функцию из многих, где алгоритм Google Zeros Zeros только на разделе страницы.
Система извлечения может быть обобщена на другие контексты
Интересная находка, подробно описанная в исследовательской работе, заключается в том, что разработанная ими система может использоваться в областях (областях), кроме местных предприятий, таких как «поиск экспертизы, добыча юридической и медицинской информации».
Они пишут:
«Уроки, которые мы поделились в разработке крупной конвейера экстракции с нуля, могут обобщать другие задачи извлечения информации или машинного обучения. Они имеют прямые применения для задач добычи, примером которых является выявление экспертизы, юридическая и медицинская добыча.
Три наиболее важных урока:
(1) использование свойств данных, таких как структурированный контент, может смягчить проблему холодного начала аннотации данных;
(2) формулирование задачи в качестве проблемы поиска может помочь исследователям и практикующим операторам справиться с большим набором данных;
(3) Информация о контексте может улучшить качество модели, не жертвуя ее масштабируемостью ».
Экстракт типа работы — это успех
Исследовательская работа гласит, что их система является успешной, она имеет высокий уровень точности (точность) и что она масштабируется. Исследовательская работа гласит, что она уже используется в течение года. Исследование датировано 2023 году, но, согласно интернет -архиву (Wayback Machine), оно было опубликовано где -то в июле 2024 года.
Исследователи пишут:
«Наш конвейер периодически выполняется, чтобы поддерживать извлеченный контент в курсе.
Вынос
- Алгоритм Google, который извлекает типы заданий из веб -страниц
Google разработал алгоритм, который извлекает «типы заданий» (то есть, предлагаемые услуги) из бизнес -сайтов для отображения в картах Google и поиске. - Трубопроводы из неструктурированного содержания
Вместо того, чтобы полагаться на структурированные элементы HTML, алгоритм считывает свободно текстовый контент, что делает его эффективным, даже когда услуги похоронены в параграфах. - Контекстуальная значимость важна
Система оценивает окружающие слова, чтобы подтвердить, что термины, связанные с обслуживанием, фактически имеют отношение к бизнесу, повышая точность. - Потенциал обобщения модели
Подход может применяться к другим областям, таким как юридическая или медицинская информация, показывая, как его можно применять к другим видам знаний. - Высокая точность и масштабируемость
Система была развернута более года и обеспечивает масштабируемые, высокие результаты на миллиардах веб-страниц.
Google опубликовал исследовательский документ об алгоритме, который автоматически извлекает описания услуг с локальных бизнес-сайтов, анализируя фразы ключевых слов и окружающий их контекст, позволяя более точным и современным спискам в картах Google и поиске. Этот метод избегает зависимости от структуры HTML и может быть адаптирован для использования в других отраслях, где необходима извлечение информации из неструктурированного текста.
Прочитайте исследовательскую статью, а также скачать версию PDF здесь:
Извлечение типа работы для предприятий по обслуживанию
Избранное изображение от Shutterstock/Vidi Studio