Google опубликовал исследовательскую работу о том, как извлечь намерения пользователя из взаимодействия с пользователем, которые затем можно использовать для автономных агентов. Обнаруженный ими метод использует небольшие модели на устройстве, которым не нужно отправлять данные обратно в Google, а это означает, что конфиденциальность пользователя защищена.

Исследователи обнаружили, что им удалось решить проблему, разделив ее на две задачи. Их решение работало настолько хорошо, что смогло превзойти базовую производительность мультимодальных моделей больших языков (MLLM) в крупных центрах обработки данных.

Меньшие модели в браузерах и устройствах

Основное внимание в исследовании уделяется выявлению намерений пользователя посредством серии действий, которые пользователь выполняет на своем мобильном устройстве или в браузере, при этом сохраняя эту информацию на устройстве, чтобы никакая информация не отправлялась обратно в Google. Это означает, что обработка должна происходить на устройстве.

Они добились этого в два этапа.

  1. На первом этапе модель на устройстве суммирует то, что делал пользователь.
  2. Затем последовательность сводок отправляется во вторую модель, которая определяет намерение пользователя.

Исследователи объяснили:

«…наш двухэтапный подход демонстрирует превосходную производительность по сравнению как с меньшими моделями, так и с современными большими MLLM, независимо от набора данных и типа модели.
Наш подход также естественным образом обрабатывает сценарии с зашумленными данными, с которыми трудно справиться традиционным методам контролируемой точной настройки».

Извлечение намерений из взаимодействий пользовательского интерфейса

Извлечение намерений из снимков экрана и текстовых описаний взаимодействия с пользователем — это метод, предложенный в 2025 году с использованием мультимодальных моделей большого языка (MLLM). Исследователи говорят, что они применили этот подход к своей проблеме, но использовали улучшенную подсказку.

ЧИТАТЬ  Бывший сотрудник Google отвечает, почему поиск в Google становится все хуже

Исследователи объяснили, что извлечение намерения — нетривиальная проблема, которую нужно решить, и что на этом этапе может произойти множество ошибок. Исследователи используют слово «траектория» для описания пути пользователя в мобильном или веб-приложении, представленного как последовательность взаимодействий.

Путь пользователя (траектория) превращен в формулу, в которой каждый шаг взаимодействия состоит из двух частей:

  1. Наблюдение
    Это визуальное состояние экрана (скриншот), показывающее, где находится пользователь на этом этапе.
  2. Действие
    Конкретное действие, которое пользователь выполнил на этом экране (например, нажатие кнопки, ввод текста или переход по ссылке).

Они описали три качества извлеченного доброго намерения:

  • «верный: описывает только то, что действительно происходит на траектории;
  • комплексный: предоставляет всю информацию о намерениях пользователя, необходимую для воспроизведения траектории;
  • и релевантный: не содержит посторонней информации сверх той, которая необходима для полноты».

Сложность оценки извлеченных намерений

Исследователи объясняют, что оценить извлеченные намерения сложно, поскольку намерения пользователей содержат сложные детали (например, даты или данные транзакций), а намерения пользователя по своей сути субъективны и содержат двусмысленности, и эту проблему сложно решить. Причина, по которой траектории субъективны, заключается в том, что лежащие в их основе мотивы неоднозначны.

Например, выбрал ли пользователь продукт из-за цены или характеристик? Действия видны, но мотивы нет. Предыдущие исследования показали, что намерения между людьми совпадали на 80 % на веб-траекториях и на 76 % на мобильных траекториях, поэтому не факт, что данная траектория всегда может указывать на конкретное намерение.

Двухэтапный подход

Исключив другие методы, такие как рассуждение по цепочке мыслей (CoT) (поскольку небольшие языковые модели плохо справлялись с рассуждениями), они выбрали двухэтапный подход, имитирующий рассуждения по цепочке мыслей.

Исследователи объяснили свой двухэтапный подход:

«Во-первых, мы используем подсказки для создания сводки для каждого взаимодействия (состоящего из визуального снимка экрана и текстового представления действия) на траектории.
на основе подсказок, поскольку в настоящее время отсутствуют данные обучения со сводными метками для отдельных взаимодействий.

Во-вторых, мы вводим все сводные данные уровня взаимодействия в модель второго этапа, чтобы сгенерировать общее описание намерений. На втором этапе применяем тонкую настройку…»

Первый этап: сводка скриншотов

Первое резюме, для скриншота взаимодействия делят резюме на две части, но есть и третья часть.

  1. Описание того, что происходит на экране.
  2. Описание действия пользователя.
ЧИТАТЬ  30 -ТБ диск от Seagate может изменить функциональность центров обработки данных, но он не предназначен для случайных пользователей

Третий компонент (спекулятивное намерение) — это способ избавиться от предположений о намерениях пользователя, когда модель по сути догадывается о том, что происходит. Эта третья часть называется «спекулятивное намерение», и на самом деле от нее просто избавляются. Удивительно, но возможность модели размышлять, а затем избавиться от этих спекуляций приводит к более качественному результату.

Исследователи использовали несколько стратегий подсказок, и одна из них сработала лучше всего.

Второй этап: создание общего описания намерения

На втором этапе исследователи настроили модель для создания общего описания намерений. Они точно настроили модель с помощью обучающих данных, состоящих из двух частей:

  1. Сводки, представляющие все взаимодействия на траектории.
  2. Соответствующая основная истина, которая описывает общее намерение каждой траектории.

Первоначально модель имела тенденцию к галлюцинациям, поскольку первая часть (входные сводки) потенциально неполна, а «целевые намерения» полны. Это заставило модель научиться заполнять недостающие части, чтобы входные сводки соответствовали целевым намерениям.

Они решили эту проблему, «уточнив» целевые намерения, удалив детали, которые не отражены во входных сводках. Это научило модель делать выводы о намерениях только на основе входных данных.

Исследователи сравнили четыре разных подхода и остановились на этом, поскольку он показал себя очень хорошо.

Этические соображения и ограничения

В исследовательском документе кратко излагаются потенциальные этические проблемы, когда автономный агент может предпринимать действия, которые не отвечают интересам пользователя, и подчеркивается необходимость создания надлежащих ограждений.

Авторы также признали ограничения исследования, которые могут ограничить возможность обобщения результатов. Например, тестирование проводилось только на Android и в веб-средах, а это означает, что результаты могут не распространяться на устройства Apple. Еще одним ограничением является то, что исследование было ограничено пользователями в США на английском языке.

ЧИТАТЬ  Сэкономьте 100 долларов на этом компактном и универсальном домашнем 3D-принтере | Цифровые тенденции

В исследовательской работе или в сопроводительном сообщении в блоге нет ничего, что указывало бы на то, что эти процессы для извлечения намерений пользователей используются в настоящее время. Сообщение в блоге заканчивается сообщением о том, что описанный подход полезен:

«В конечном счете, по мере того, как производительность моделей улучшается, а мобильные устройства приобретают большую вычислительную мощность, мы надеемся, что понимание намерений на устройстве может стать строительным блоком для многих вспомогательных функций на мобильных устройствах в будущем».

Вынос

Ни в блоге об этом исследовании, ни в самой исследовательской работе результаты этих процессов не описываются как что-то, что можно было бы использовать в поиске с помощью ИИ или классическом поиске. В нем упоминается контекст автономных агентов.

В исследовательской работе явно упоминается контекст автономного агента на устройстве, который наблюдает за тем, как пользователь взаимодействует с пользовательским интерфейсом, а затем может сделать вывод, какова цель (намерение) этих действий.

В документе перечислены два конкретных применения этой технологии:

  1. Проактивная помощь:
    Агент, который наблюдает за тем, что делает пользователь, для «повышенной персонализации» и «повышения эффективности работы».
  2. Персонализированная память
    Этот процесс позволяет устройству «запоминать» прошлые действия как намерение на будущее.

Показывает направление, в котором движется Google

Хотя это может быть не сразу использовано, оно показывает направление, в котором движется Google: небольшие модели на устройстве будут следить за взаимодействием пользователей и иногда вмешиваться, чтобы помогать пользователям в зависимости от их намерений. Намерение здесь используется в смысле понимания того, что пытается сделать пользователь.

Прочитайте сообщение в блоге Google здесь:

Маленькие модели, большие результаты: достижение превосходного извлечения намерений посредством декомпозиции

Прочтите исследовательскую работу в формате PDF:

Маленькие модели, большие результаты: достижение превосходного извлечения намерений посредством декомпозиции (PDF)

Рекомендованное изображение: Shutterstock/ViDI Studio



Source link