ChatGPT анонсировал новую версию ChatGPT, которая может принимать входные аудио, изображения и текст, а также генерировать выходные данные в виде аудио, изображений и текста. OpenAI называет новую версию ChatGPT 4o, где «o» означает «omni», составное слово, означающее «все».
ЧатGPT 4o (Omni)
OpenAI описала новую версию ChatGPT как шаг вперед к более естественному взаимодействию человека и машины, которое реагирует на ввод пользователя с той же скоростью, что и разговоры между людьми. Новая версия соответствует ChatGPT 4 Turbo на английском языке и значительно превосходит Turbo на других языках. Производительность API значительно улучшена, скорость увеличена, а операции стали дешевле на 50%.
В объявлении говорится:
«По оценкам традиционных тестов, GPT-4o достигает производительности уровня GPT-4 Turbo в области текстового, логического и кодового интеллекта, одновременно устанавливая новые максимумы в многоязычных, аудио и визуальных возможностях».
Расширенная языковая обработка
Предыдущий метод голосового общения включал объединение трех разных моделей для преобразования голосового ввода в текст: вторая модель (GPT 3.5 или GPT-4) обрабатывала его и выводила текст, а третья модель преобразовывала текст обратно в аудио. Говорят, что этот метод теряет нюансы в разных переводах.
OpenAI описал недостатки предыдущего подхода, которые (предположительно) преодолеваются новым подходом:
«Этот процесс означает, что основной источник интеллекта, GPT-4, теряет много информации — он не может напрямую наблюдать за тонами, несколькими говорящими или фоновым шумом, а также не может смеяться, петь или выражать эмоции».
Новая версия не требует трех разных моделей, поскольку все входы и выходы управляются в одной модели для сквозного ввода и вывода звука. Интересно, что в OpenAI заявляют, что они еще не исчерпали все возможности новой модели и не до конца осознали ее ограничения.
Новые рекомендации и итеративный выпуск
OpenAI GPT 4o оснащен новыми ограждениями и фильтрами для обеспечения безопасности и предотвращения непреднамеренной речи. Однако в сегодняшнем объявлении говорится, что при запуске они будут предоставлять только возможности ввода и вывода текста и изображений, а также ограниченный вывод звука. GPT 4o доступен как для бесплатного, так и для платного уровня, при этом пользователи Plus получают в пять раз более высокие лимиты сообщений.
Аудио функции будут выпущены в ограниченной альфа-фазе для пользователей ChatGPT Plus и API в течение нескольких недель.
В объявлении пояснялось:
«Мы понимаем, что аудиомодальности GPT-4o представляют собой множество новых рисков. Сегодня мы публикуем текстовые и графические входные данные и текстовые выходные данные публично. В ближайшие недели и месяцы мы будем работать над технической инфраструктурой, удобством использования и безопасностью после обучения, необходимыми для выпуска других модальностей. Например, при запуске аудиовыходы будут ограничены набором предустановленных голосов и будут соответствовать нашим существующим правилам безопасности».
Прочтите объявление:
Рекомендованное изображение с сайта Shutterstock/Photo For Everything