Microsoft имеет объявлено обновления поисковой инфраструктуры Bing, включающие большие языковые модели (LLM), малые языковые модели (SLM) и новые методы оптимизации.

Это обновление направлено на повышение производительности и снижение затрат на доставку результатов поиска.

В объявлении компания заявляет:

«В Bing мы всегда расширяем границы поисковых технологий. Использование как моделей большого языка (LLM), так и моделей малого языка (SLM) знаменует собой важную веху в расширении наших возможностей поиска. Хотя модели-трансформеры сослужили нам хорошую службу, растущая сложность поисковых запросов потребовала создания более мощных моделей».

Прирост производительности

Использование LLM в поисковых системах может создать проблемы со скоростью и стоимостью.

Чтобы решить эти проблемы, Bing обучил SLM, которые, по их утверждению, работают в 100 раз быстрее, чем LLM.

В объявлении говорится:

«Обслуживание LLM может быть дорогостоящим и медленным. Чтобы повысить эффективность, мы обучили модели SLM (пропускная способность примерно в 100 раз выше по сравнению с LLM), которые более точно обрабатывают и понимают поисковые запросы».

Bing также использует NVIDIA TensorRT-LLM для улучшения работы SLM.

TensorRT-LLM — это инструмент, который помогает сократить время и стоимость запуска больших моделей на графических процессорах NVIDIA.

Влияние на «глубокий поиск»

Согласно техническому отчет от Microsoft интеграция технологии Nvidia TensorRT-LLM улучшила функцию «Глубокого поиска».

Deep Search использует SLM в режиме реального времени для предоставления релевантных результатов в Интернете.

До оптимизации исходная модель преобразователя Bing имела задержку 95-го процентиля 4,76 секунды на пакет (20 запросов) и пропускную способность 4,2 запроса в секунду на экземпляр.

ЧИТАТЬ  Как получить максимальную выгоду от максимальной ценности конверсии и целевой рентабельности инвестиций в рекламу

С помощью TensorRT-LLM задержка сократилась до 3,03 секунды на пакет, а пропускная способность увеличилась до 6,6 запросов в секунду на экземпляр.

Это представляет собой 36% сокращение латентности и 57% снижение эксплуатационных расходов.

Компания заявляет:

«… наш продукт создан на основе обеспечения наилучших результатов, и мы не идем на компромисс в отношении качества ради скорости. Именно здесь в игру вступает TensorRT-LLM, сокращающий время вывода модели и, следовательно, сквозную задержку без ущерба для качества результата».

Преимущества для пользователей Bing

Это обновление приносит пользователям Bing несколько потенциальных преимуществ:

  • Более быстрые результаты поиска с оптимизированным выводом и более быстрым временем ответа
  • Повышенная точность за счет расширенных возможностей моделей УУЗР, обеспечивающих более контекстуализированные результаты.
  • Экономическая эффективность, позволяющая Bing инвестировать в дальнейшие инновации и улучшения.

Почему переход Bing к моделям LLM/SLM имеет значение

Переход Bing на модели LLM/SLM и оптимизацию TensorRT может повлиять на будущее поиска.

Поскольку пользователи задают более сложные вопросы, поисковым системам необходимо лучше понимать и быстрее предоставлять релевантные результаты. Bing стремится сделать это, используя меньшие языковые модели и передовые методы оптимизации.

Хотя нам придется подождать и увидеть полный эффект, шаг Bing создает основу для новой главы в поиске.


Рекомендованное изображение: Mindea/Shutterstock



Source link