Лидером, ожидаемо, стал ChatGPT.

На GitHub опубликовали исследование от AI-платформы Vectara под названием Hallucination Leadership. В нем нейросети проходили испытания по нескольким критериям:

  • Точность ответов — насколько результаты соответствуют истине;

  • Hallucination — шкала погрешностей и выдуманного контента, полученного из неверифицированных источников; метрика обратно пропорциональна точности;

  • Средняя длина ответов — среднее количество символов;

  • Частота ответов — как часто нейросеть дает ответ на заданный вопрос; при недостатке данных нейросети процент снижается.

Первое место в списке получили топовые нейросетевые модели от OpenAI — версии чат-бота GPT-4 и GPT-3.5. Все последующие места в топе рейтинга занимают модели Unite.AI под названием Llama. Замыкают десятку продукты Google. Их отличают высокие показатели «галлюцинирования», сниженные показатели точности и частотности получаемых ответов, а также нестабильная длина сообщения — разница между двумя соседними моделями в объеме составила почти десять раз.

Метрика Hallucination — это авторская разработка Vectara для измерения точности ответов нейросетевых моделей. Система постоянно совершенствуется, и работает по модели с открытым исходным кодом. Подробнее о ней можно прочитать в блоге компании.

Разработчики отметили, что список будет обновляться по мере поступлений новых данных.



Source link

ЧИТАТЬ  Топ-5 нейросетей, которые будут слушать не хуже психолога