Claude Opus 4.1 улучшает возможности кодирования и агента • Продвижение Web 2.0

Антропический имеет выпущенный Claude Opus 4.1, обновление своей флагманской модели, которая, как говорят, обеспечит лучшую производительность в кодировании, рассуждениях и автономной обработке задач.

Новая модель теперь доступна для пользователей Claude Pro, подписчиков Claude Code и разработчиков, использующих API, Amazon Bedrock или Google Cloud Vertex AI.

Содержание

1 Выращивание производительности
2 Расширенные варианты использования
3 Улучшения безопасности
4 Глядя в будущее

Выращивание производительности

Близкая работа 4.1 Оценка 74,5% по проверке SWE-Bench, эталон для реальных проблем кодирования и позиционируется как замена для Opus 4.

Модель показывает заметные улучшения в многофильном рефакторинге и отладке, особенно в крупных кодовых базах. Согласно отзыву Github и Enterprise, цитируемой Antropric, она превосходит Opus 4 в большинстве задач кодирования.

Инженерная команда Ракутена сообщает, что Claude 4.1 точно определяет исправления кода без введения ненужных изменений. Windsurf, платформа разработчика, измеряла одно стандартное усиление отклонений по сравнению с Opus 4, сравнимое с скачком от Claude Sonnet 3.7 до сонета 4.

Расширенные варианты использования

Антропический описывает Claude 4.1 как гибридную модель рассуждений, предназначенную для обработки как мгновенных выходов, так и расширенного мышления. Разработчики могут точно настроить «бюджеты мышления» через API, чтобы сбалансировать стоимость и производительность.

Ключевые варианты использования включают:

Агенты ИИ: Сильные результаты по задачам тау-распаков и длинноходов делают модель подходящей для автономных рабочих процессов и автоматизации предприятия.
Усовершенствованное кодирование: При поддержке 32 000 токенов вывода Claude 4.1 обрабатывает сложный рефакторинг и многоэтапный генерацию, адаптируясь к стилю кодирования и контексту.
Анализ данных: Модель может синтезировать идеи из больших объемов структурированных и неструктурированных данных, таких как патентные документы и исследовательские работы.
Содержание поколения: Claude 4.1 генерирует больше естественного письма и более богатой прозы, чем предыдущие версии, с лучшей структурой и тоном.

ЧИТАТЬ Фермы призрачных кликов: невидимая угроза, истощающая рекламные бюджеты компаний

Улучшения безопасности

Claude 4.1 продолжает работать в соответствии с стандартом безопасности AI AI AI. Хотя обновление считается постепенным, компания добровольно провела оценки безопасности, чтобы обеспечить эффективность, оставалась в пределах приемлемых границ риска.

Безвредность: Модель отказалась от запрашивающих политики запросов в 98,76% случаев, по сравнению с 97,27% с Opus 4.
Чрезмерный повторный режим: По доброкачественным запросам коэффициент отказа остается низкой на уровне 0,08%.
Предвзятость и безопасность детей: Оценки не обнаружили существенной регрессии в политической предвзятости, дискриминационном поведении или реакциях безопасности детей.

Антропический также проверил сопротивление модели к быстрому инъекции и злоупотреблению агентами. Результаты показали сопоставимое или улучшенное поведение по сравнению с OPUS 4, с дополнительным обучением и гарантиями для смягчения краев.

Глядя в будущее

Anpropic говорит, что на горизонте более крупные обновления, а Claude 4.1 позиционируется как выпуск, ориентированное на стабильность перед будущими скачками.

Для команд, уже использующих Claude Opus 4, путь обновления беспроблемен, без изменений в структуре API или цены.

Изображение: Ahyan Stock Studios/Shutterstock

Source link