Антропический имеет выпущенный Claude Opus 4.1, обновление своей флагманской модели, которая, как говорят, обеспечит лучшую производительность в кодировании, рассуждениях и автономной обработке задач.
Новая модель теперь доступна для пользователей Claude Pro, подписчиков Claude Code и разработчиков, использующих API, Amazon Bedrock или Google Cloud Vertex AI.
Содержание
Выращивание производительности
Близкая работа 4.1 Оценка 74,5% по проверке SWE-Bench, эталон для реальных проблем кодирования и позиционируется как замена для Opus 4.
Модель показывает заметные улучшения в многофильном рефакторинге и отладке, особенно в крупных кодовых базах. Согласно отзыву Github и Enterprise, цитируемой Antropric, она превосходит Opus 4 в большинстве задач кодирования.
Инженерная команда Ракутена сообщает, что Claude 4.1 точно определяет исправления кода без введения ненужных изменений. Windsurf, платформа разработчика, измеряла одно стандартное усиление отклонений по сравнению с Opus 4, сравнимое с скачком от Claude Sonnet 3.7 до сонета 4.
Расширенные варианты использования
Антропический описывает Claude 4.1 как гибридную модель рассуждений, предназначенную для обработки как мгновенных выходов, так и расширенного мышления. Разработчики могут точно настроить «бюджеты мышления» через API, чтобы сбалансировать стоимость и производительность.
Ключевые варианты использования включают:
- Агенты ИИ: Сильные результаты по задачам тау-распаков и длинноходов делают модель подходящей для автономных рабочих процессов и автоматизации предприятия.
- Усовершенствованное кодирование: При поддержке 32 000 токенов вывода Claude 4.1 обрабатывает сложный рефакторинг и многоэтапный генерацию, адаптируясь к стилю кодирования и контексту.
- Анализ данных: Модель может синтезировать идеи из больших объемов структурированных и неструктурированных данных, таких как патентные документы и исследовательские работы.
- Содержание поколения: Claude 4.1 генерирует больше естественного письма и более богатой прозы, чем предыдущие версии, с лучшей структурой и тоном.
Улучшения безопасности
Claude 4.1 продолжает работать в соответствии с стандартом безопасности AI AI AI. Хотя обновление считается постепенным, компания добровольно провела оценки безопасности, чтобы обеспечить эффективность, оставалась в пределах приемлемых границ риска.
- Безвредность: Модель отказалась от запрашивающих политики запросов в 98,76% случаев, по сравнению с 97,27% с Opus 4.
- Чрезмерный повторный режим: По доброкачественным запросам коэффициент отказа остается низкой на уровне 0,08%.
- Предвзятость и безопасность детей: Оценки не обнаружили существенной регрессии в политической предвзятости, дискриминационном поведении или реакциях безопасности детей.
Антропический также проверил сопротивление модели к быстрому инъекции и злоупотреблению агентами. Результаты показали сопоставимое или улучшенное поведение по сравнению с OPUS 4, с дополнительным обучением и гарантиями для смягчения краев.
Глядя в будущее
Anpropic говорит, что на горизонте более крупные обновления, а Claude 4.1 позиционируется как выпуск, ориентированное на стабильность перед будущими скачками.
Для команд, уже использующих Claude Opus 4, путь обновления беспроблемен, без изменений в структуре API или цены.
Изображение: Ahyan Stock Studios/Shutterstock