Open AI представила возможности GPT-4V (Vision) • Продвижение Web 2.0

Это продвинутая модель с комплексным функционалом по работе с изображениями.

После нескольких месяцев экспериментов с версией ChatGPT-4 в Интернете появился документ, описывающий возможности новой модели Vision. Ранее разработчики упоминали о возможности использования инструмента в медицинской и страховой сферах, например, для декодирования рентгеновских изображений. В документе представлены новые подробности о возможностях Vision:

Распознавать текст, формулы и таблицы на фотографиях;
Транскрипция медицинских документов, например, результатов компьютерной томографии;
подсчет количества объектов на изображении (функция несовершенна);
решение головоломок и оптических иллюзий;
Определение различий между изображениями, выявление ошибок и неточностей;
Различать человеческие эмоции.

Зрение может определить степень ущерба в результате аварии на основе изображений. Нейронная сеть дает подробные объяснения дефектов, но пока не способна рассчитать примерный ущерб.

Узнайте больше о возможностях Vision на сайте Справочный документ на английском.

Source

ЧИТАТЬ NYT Strands Today – советы, ответы и спангграмма на среду, 18 сентября (игра № 199)