OpenAI выпустила две новые модели с открытым весом по лицензии Apache 2.0. Эти модели предназначены для обеспечения сильной реальной производительности во время работы на потребительском оборудовании, включая модель, которая может работать на высококачественном ноутбуке с 16 ГБ графического процессора.
Содержание
Реальная производительность при более низкой стоимости оборудования
Две модели:
- GPT-OS-120B (117 миллиардов параметров)
- GPT-OSS-20B (21 миллиард параметров)
Большая модель GPT-OS-120B соответствует O4-Mini Openai с показателями рассуждений, в то же время требуя только одного графического процессора 80 ГБ. Меньшая модель GPT-OSS-20B работает аналогично O3-Mini и эффективно работает на устройствах только с 16 ГБ графического процессора. Это позволяет разработчикам запускать модели на потребительских машинах, что облегчает развертывание без дорогой инфраструктуры.
Расширенные рассуждения, использование инструментов и цепочка мыслей
Openai объясняет что модели превосходят другие модели с открытым исходным кодом, аналогичные размеры по аргументированию и использованию инструментов.
Согласно Openai:
«Эти модели совместимы с нашими ответами API (открываются в новом окне) и предназначены для использования в агентских рабочих процессах с исключительными инструкциями, использованием инструментов, такими как поиск в Интернете или выполнение кода Python, а также возможности рассуждений, в том числе способность к скорректировке усилий по уходу за заданиями, которые не требуют сложных и/или целевых задержек. Выходы (открывается в новом окне). »
Разработан для гибкости и интеграции разработчика
Openai выпустил Руководство разработчика для поддержки интеграции с такими платформами, как Обнимающееся лицоВ ЖирубVllm, Ollama и Llama.cpp. Модели совместимы с API API OpenAI и поддерживают расширенное обучение и разумное поведение. Разработчики могут точно настроить модели и реализовать защитные ограждения для пользовательских приложений.
Безопасность в моделях ИИ с открытым весом
OpenAI подошел к своим моделям с открытым весом с целью обеспечения безопасности как на протяжении всего обучения, так и в выпуске. Тестирование подтвердило, что даже при намеренно злонамеренной тонкой настройке GPT-OS-120B не достиг опасного уровня способности в областях биологического, химического или кибер-риска.
Цепь мысли нефильтрованной
OpenAI преднамеренно оставляет цепь мышления (COTS) нефильтрованной во время обучения, чтобы сохранить их полезность для мониторинга, основываясь на проблеме, что оптимизация может привести к тому, что модели скрывают свои реальные рассуждения. Это, однако, может привести к галлюцинациям.
В соответствии с их модельной картой (PDF -версия):
«В нашем недавнем исследовании мы обнаружили, что мониторинг цепочки мышления модели рассуждений может быть полезным для обнаружения неправильного поведения. Мы также обнаружили, что модели могут научиться скрывать свое мышление, в то же время плохо себя ведя себя, если их кроватки были напрямую дали на наличие« плохих мыслей ».
Совсем недавно мы присоединились к позиционному документу с несколькими другими лабораториями, утверждая, что пограничные разработчики должны «рассмотреть влияние решений о разработке на контролируемость COT».
В соответствии с этими проблемами, мы решили не оказывать какого-либо прямого давления оптимизации на кроватку на одну из наших двух моделей с открытым весом. Мы надеемся, что это даст разработчикам возможность внедрить системы мониторинга COT в своих проектах и позволит исследовательскому сообществу дальнейшее изучение мониторинга COT ».
Влияние на галлюцинации
В документации OpenAI говорится, что решение не ограничивать цепочку мышления приводит к более высоким показателям галлюцинации.
Версия модели PDF объясняет, почему это происходит:
Поскольку эти цепочки мышления не ограничены, они могут содержать галлюцинированный контент, включая язык, который не отражает стандартную политику безопасности OpenAI. Разработчики не должны напрямую показывать цепочки мышления пользователям своих приложений, без дальнейшей фильтрации, модерации или суммирования этого типа контента ».
Бенчмаркинг показал, что две модели с открытым исходным кодом работали менее хорошо на контрольных показателях галлюцинации по сравнению с Openai O4-Mini. В документации PDF -карты модели PDF объясняется, что этого следует ожидать, потому что новые модели меньше и подразумевает, что модели будут меньше галлюцинировать в настройках агента или при поиске информации в Интернете (например, RAG) или извлечения из базы данных.
Openai Oss Hallucination Cendering
Вынос
- Открытый релиз
OpenAI выпустил две модели с открытым весом по разрешающей лицензии Apache 2.0. - Производительность против Стоимость оборудования
Модели обеспечивают высокие рассуждения, работая на реальном мире доступного оборудования, что делает их широко доступными. - Моделиные характеристики и возможности
GPT-OS-120B совпадает с O4-Mini по рассуждениям и работает на графическом процессоре 80 ГБ; GPT-OS-20B работает аналогично O3-Mini по поводу показателей рассуждений и эффективно работает на графическом процессоре 16 ГБ. - Агент рабочий процесс
Обе модели поддерживают структурированные выходы, использование инструментов (например, Python и Web Search), и могут масштабировать свои усилия по рассуждениям на основе сложности задачи. - Настройка и интеграция
Модели созданы для того, чтобы вписаться в агентские рабочие процессы и могут быть полностью адаптированы к конкретным вариантам использования. Их поддержка структурированных выходов делает их адаптируемыми к сложным программным системам. - Использование инструментов и вызов функций
Модели могут выполнять функциональные вызовы и использование инструментов с несколькими выстрелами, что делает их эффективными для задач автоматизации, которые требуют рассуждения и адаптации. - Сотрудничество с реальными пользователями
OpenAI сотрудничал с такими партнерами, как AI Sweden, Orange и Snowflake для изучения практического использования моделей, включая безопасное развертывание на месте и пользовательскую точную настройку на специализированных наборах данных. - Оптимизация вывода
Модели используют смеси экспертов (MOE), чтобы уменьшить вычислительную нагрузку и сгруппированное многопрофильное внимание для вывода и эффективности памяти, что облегчает их запуск по более низкой стоимости. - Безопасность
Модели Openai с открытым исходным кодом сохраняют безопасность даже при злой точной настройке; Цепочка мыслей (COTS) оставлена нефильтрованной для прозрачности и мониторинга. - Комплексный компромисс
Никакое давление оптимизации, применяемое к детям, для предотвращения маскировки вредных рассуждений; может привести к галлюцинациям. - Hallucinations Bendermars и реальное представление
Модели недооценивают O4-Mini на контрольных показателях галлюцинации, которые приписывают их меньший размер. Тем не менее, в реальных приложениях, где модели могут искать информацию из веб-данных или запросить внешние наборы данных, ожидается, что галлюцинации будут менее частыми.
Избранное изображение от Shutterstock/Good Dreams — Studio