Brave анонсировала свою новую поисковую систему с искусственным интеллектом, ориентированную на конфиденциальность, под названием Answer with AI, которая работает с собственным поисковым индексом миллиардов веб-сайтов. Их текущая поисковая система уже обслуживает 10 миллиардов поисковых запросов в год, а это означает, что поисковая система Brave на базе искусственного интеллекта теперь является одной из крупнейших поисковых систем с искусственным интеллектом в Интернете.
Многие представители сообщества поискового маркетинга и электронной коммерции выразили обеспокоенность по поводу будущего Интернета из-за поисковых систем с искусственным интеллектом. Поисковая система Brave с искусственным интеллектом продолжает отображать ссылки и, что наиболее важно, по умолчанию не отвечает на коммерческие или транзакционные запросы с использованием искусственного интеллекта, что должно быть хорошей новостью для SEO-специалистов и онлайн-бизнеса. Brave ценит веб-экосистему и будет отслеживать структуру посещений веб-сайтов.
Search Engine Journal поговорил с Жозепом М. Пухолем, руководителем отдела поиска Brave, который ответил на вопросы о поисковом индексе, о том, как он работает с искусственным интеллектом, и, самое главное, поделился тем, что нужно знать оптимизаторам и владельцам бизнеса, чтобы улучшить свои рейтинги.
Содержание
Ответ с помощью ИИ на базе Brave
В отличие от других поисковых решений на основе искусственного интеллекта, поисковая система Brave с искусственным интеллектом полностью основана на собственном поисковом индексе сканируемых и ранжируемых веб-сайтов. Вся базовая технология, от поискового индекса до больших языковых моделей (LLM) и технологии извлечения дополненной генерации (RAG), была разработана Brave. Это особенно выгодно с точки зрения конфиденциальности и делает результаты поиска Brave уникальными, еще больше отличая их от других альтернативных поисковых систем.
Технология поиска
Сама поисковая система создана полностью внутри компании. По словам Хосепа М. Пужоля, руководителя поиска в Brave:
«У нас есть доступ во время запроса ко всем нашим индексам, более 20 миллиардам страниц, что означает, что мы извлекаем любую информацию в режиме реального времени (схемы, таблицы, фрагменты, описания и т. д.). Мы также подробно рассказываем о том, какие данные использовать: от целых абзацев или текста на странице до отдельных предложений или строк в таблице.
Поскольку в нашем распоряжении полноценная поисковая система, основное внимание уделяется не поиску, а отбору и ранжированию. Кроме того, для страниц в нашем индексе у нас есть доступ к той же информации, которая используется для ранжирования, например: Например, обзоры, популярность и т. д. Это важно для выбора более релевантных источников».
Поисковая дополненная генерация (RAG)
Поисковая система работает так, что у нее есть поисковый индекс и большие языковые модели, а также промежуточная технология RAG (Поисковая дополненная генерация), которая гарантирует, что ответы остаются актуальными и основанными на фактах. Я спросил о RAG, и Хосеп подтвердил, что именно так это и работает.
Он ответил:
«Вы правы, наша новая функция использует RAG. Фактически, мы уже использовали этот метод с нашей предыдущей функцией Summarizer, выпущенной в марте 2023 года. Однако с помощью этой новой функции мы расширяем как количество, так и качество данных, используемых в подсказках. »
Используются большие языковые модели
Я спросил о языковых моделях, используемых в новой поисковой системе ИИ, и о том, как они применяются.
«Модели развертываются на экземплярах AWS p4 с использованием VLLM.
В качестве основной модели LLM мы используем комбинацию Mixtral 8x7B и Mistral 7B.
Однако мы также запускаем несколько индивидуально обученных моделей-трансформеров для вспомогательных задач, таких как семантическое сопоставление и ответы на вопросы. Эти модели намного меньше по размеру из-за строгих требований к задержке (10-20 мс).
Эти вспомогательные задачи имеют решающее значение для нашей функции, поскольку они выбирают данные, которые в конечном итоге появятся в окончательном приглашении LLM. Эти данные могут представлять собой текстовые фрагменты, зависящие от запроса, схемы, табличные данные или внутренние структурированные данные, полученные из наших расширенных фрагментов кода. Речь идет не о возможности получения большого количества данных, а о выборе кандидатов для добавления в контекст подсказки.
Например, запрос «Президенты Франции по партиям» обрабатывает 220 КБ необработанных данных, включая 462 строки, выбранные из 47 таблиц и 7 схем. Размер приглашения составляет около 6500 токенов, а окончательный ответ — всего 876 байт.
Короче говоря, можно сказать, что с помощью Answer with AI мы переходим от 20 миллиардов страниц к нескольким тысячам токенов».
Как ИИ работает с результатами локального поиска
Затем я спросил, как новая поисковая система будет отображать локальный поиск. Я спросил Жозепа, может ли он поделиться некоторыми сценариями и примерами запросов, в которых система ответов ИИ раскроет местные предприятия. Например, если я спрошу о лучших гамбургерах в Сан-Франциско, предоставит ли система ответов ИИ ответ и ссылку на него? Будет ли это полезно для людей, планирующих деловые поездки или поездки на отдых?
Джозеф ответил:
«Индекс Brave Search содержит более 1 миллиарда схем на основе местоположения, из которых мы можем извлечь более 100 миллионов компаний и других точек интереса.
Ответ с помощью ИИ — это общий термин для поиска + LLM + нескольких специализированных моделей и сервисов машинного обучения для поиска, классификации, очистки, объединения и представления информации. Мы упоминаем об этом, потому что LLM не принимают все решения. В настоящее время мы в основном используем его для синтеза неструктурированной и структурированной информации, как офлайн, так и по запросам.
Иногда кажется, что на конечный результат сильно влияет LLM (это тот случай, когда мы считаем, что ответ на вопрос пользователя представляет собой один интересующий вопрос, например, «Проверка кухни Фаро»), а иногда их работа более тонкая (например, «Лучшие гамбургеры») sf»), создавая описание бизнеса в различных веб-ссылках или объединяя категорию бизнеса в единую таксономию».
Советы для хорошего рейтинга
Затем я спросил, полезно ли использование структурированных данных с Schema.org для повышения рейтинга веб-сайта в Brave и есть ли у него какие-либо другие советы по SEO и онлайн-бизнесу.
Он ответил:
«В любом случае при построении контекста приглашения LLM мы уделяем особое внимание структурированным данным из Schema.org. Лучше всего иметь структурированные данные о вашей компании (стандартные схемы с сайта Schema.org). Чем полнее будут эти схемы, тем точнее будет ответ.
Однако наш ответ ИИ также может отображать данные о компании, не включенные в эти схемы. Однако всегда желательно повторять информацию в разных форматах.
Некоторые компании полагаются только на агрегаторы (Yelp, Tripadvisor, Yellow Pages) для получения своей бизнес-информации. Добавление схем на веб-сайт компании дает преимущества, даже если они предназначены только для сканирования ботами».
Планы по поиску ИИ в браузере Brave
Brave поделился, что в ближайшем будущем они будут интегрировать новую функцию поиска AI непосредственно в браузер Brave.
Джозеф объяснил:
«Мы планируем очень скоро интегрировать ИИ-движок реагирования в Brave Leo (ИИ-помощник, встроенный в браузер Brave). У пользователей есть возможность отправить ответ Лео и продолжить сеанс там».
Другие факты
В объявлении Brave также были представлены следующие факты о новой поисковой системе:
«Генераторные ответы Brave Search — это не просто текст. Глубокая интеграция индекса и модели позволяет нам комбинировать онлайн-контекстное обогащение именованных объектов (процесс, который добавляет больше контекста к человеку, месту или предмету) при генерации ответа. Это означает, что в ответах генеративный текст сочетается с другими типами носителей, включая информационные карточки и изображения.
Система ответов Brave Search может даже объединять данные из индекса и географические результаты, чтобы предоставить исчерпывающую информацию о достопримечательностях. На сегодняшний день индекс Brave Search содержит более 1 миллиарда схем на основе местоположения, из которых мы можем извлечь более 100 миллионов компаний и других объектов интереса. Эти списки — больше, чем любой общедоступный набор данных — означают, что система ответов может предоставить полные и мгновенные результаты для достопримечательностей по всему миру».