Microsoft имеет объявлено обновления поисковой инфраструктуры Bing, включающие большие языковые модели (LLM), малые языковые модели (SLM) и новые методы оптимизации.
Это обновление направлено на повышение производительности и снижение затрат на доставку результатов поиска.
В объявлении компания заявляет:
«В Bing мы всегда расширяем границы поисковых технологий. Использование как моделей большого языка (LLM), так и моделей малого языка (SLM) знаменует собой важную веху в расширении наших возможностей поиска. Хотя модели-трансформеры сослужили нам хорошую службу, растущая сложность поисковых запросов потребовала создания более мощных моделей».
Содержание
Прирост производительности
Использование LLM в поисковых системах может создать проблемы со скоростью и стоимостью.
Чтобы решить эти проблемы, Bing обучил SLM, которые, по их утверждению, работают в 100 раз быстрее, чем LLM.
В объявлении говорится:
«Обслуживание LLM может быть дорогостоящим и медленным. Чтобы повысить эффективность, мы обучили модели SLM (пропускная способность примерно в 100 раз выше по сравнению с LLM), которые более точно обрабатывают и понимают поисковые запросы».
Bing также использует NVIDIA TensorRT-LLM для улучшения работы SLM.
TensorRT-LLM — это инструмент, который помогает сократить время и стоимость запуска больших моделей на графических процессорах NVIDIA.
Влияние на «глубокий поиск»
Согласно техническому отчет от Microsoft интеграция технологии Nvidia TensorRT-LLM улучшила функцию «Глубокого поиска».
Deep Search использует SLM в режиме реального времени для предоставления релевантных результатов в Интернете.
До оптимизации исходная модель преобразователя Bing имела задержку 95-го процентиля 4,76 секунды на пакет (20 запросов) и пропускную способность 4,2 запроса в секунду на экземпляр.
С помощью TensorRT-LLM задержка сократилась до 3,03 секунды на пакет, а пропускная способность увеличилась до 6,6 запросов в секунду на экземпляр.
Это представляет собой 36% сокращение латентности и 57% снижение эксплуатационных расходов.
Компания заявляет:
«… наш продукт создан на основе обеспечения наилучших результатов, и мы не идем на компромисс в отношении качества ради скорости. Именно здесь в игру вступает TensorRT-LLM, сокращающий время вывода модели и, следовательно, сквозную задержку без ущерба для качества результата».
Преимущества для пользователей Bing
Это обновление приносит пользователям Bing несколько потенциальных преимуществ:
- Более быстрые результаты поиска с оптимизированным выводом и более быстрым временем ответа
- Повышенная точность за счет расширенных возможностей моделей УУЗР, обеспечивающих более контекстуализированные результаты.
- Экономическая эффективность, позволяющая Bing инвестировать в дальнейшие инновации и улучшения.
Почему переход Bing к моделям LLM/SLM имеет значение
Переход Bing на модели LLM/SLM и оптимизацию TensorRT может повлиять на будущее поиска.
Поскольку пользователи задают более сложные вопросы, поисковым системам необходимо лучше понимать и быстрее предоставлять релевантные результаты. Bing стремится сделать это, используя меньшие языковые модели и передовые методы оптимизации.
Хотя нам придется подождать и увидеть полный эффект, шаг Bing создает основу для новой главы в поиске.
Рекомендованное изображение: Mindea/Shutterstock