ChatGPT анонсировал новую версию ChatGPT, которая может принимать входные аудио, изображения и текст, а также генерировать выходные данные в виде аудио, изображений и текста. OpenAI называет новую версию ChatGPT 4o, где «o» означает «omni», составное слово, означающее «все».

ЧатGPT 4o (Omni)

OpenAI описала новую версию ChatGPT как шаг вперед к более естественному взаимодействию человека и машины, которое реагирует на ввод пользователя с той же скоростью, что и разговоры между людьми. Новая версия соответствует ChatGPT 4 Turbo на английском языке и значительно превосходит Turbo на других языках. Производительность API значительно улучшена, скорость увеличена, а операции стали дешевле на 50%.

В объявлении говорится:

«По оценкам традиционных тестов, GPT-4o достигает производительности уровня GPT-4 Turbo в области текстового, логического и кодового интеллекта, одновременно устанавливая новые максимумы в многоязычных, аудио и визуальных возможностях».

Расширенная языковая обработка

Предыдущий метод голосового общения включал объединение трех разных моделей для преобразования голосового ввода в текст: вторая модель (GPT 3.5 или GPT-4) обрабатывала его и выводила текст, а третья модель преобразовывала текст обратно в аудио. Говорят, что этот метод теряет нюансы в разных переводах.

OpenAI описал недостатки предыдущего подхода, которые (предположительно) преодолеваются новым подходом:

«Этот процесс означает, что основной источник интеллекта, GPT-4, теряет много информации — он не может напрямую наблюдать за тонами, несколькими говорящими или фоновым шумом, а также не может смеяться, петь или выражать эмоции».

Новая версия не требует трех разных моделей, поскольку все входы и выходы управляются в одной модели для сквозного ввода и вывода звука. Интересно, что в OpenAI заявляют, что они еще не исчерпали все возможности новой модели и не до конца осознали ее ограничения.

ЧИТАТЬ  Google прекращает тестирование структурированных данных для видеокаруселей

Новые рекомендации и итеративный выпуск

OpenAI GPT 4o оснащен новыми ограждениями и фильтрами для обеспечения безопасности и предотвращения непреднамеренной речи. Однако в сегодняшнем объявлении говорится, что при запуске они будут предоставлять только возможности ввода и вывода текста и изображений, а также ограниченный вывод звука. GPT 4o доступен как для бесплатного, так и для платного уровня, при этом пользователи Plus получают в пять раз более высокие лимиты сообщений.

Аудио функции будут выпущены в ограниченной альфа-фазе для пользователей ChatGPT Plus и API в течение нескольких недель.

В объявлении пояснялось:

«Мы понимаем, что аудиомодальности GPT-4o представляют собой множество новых рисков. Сегодня мы публикуем текстовые и графические входные данные и текстовые выходные данные публично. В ближайшие недели и месяцы мы будем работать над технической инфраструктурой, удобством использования и безопасностью после обучения, необходимыми для выпуска других модальностей. Например, при запуске аудиовыходы будут ограничены набором предустановленных голосов и будут соответствовать нашим существующим правилам безопасности».

Прочтите объявление:

Привет GPT-4o

Рекомендованное изображение с сайта Shutterstock/Photo For Everything

Source