- Антропик управлял ИИ
- Компания работала с министерством США, чтобы гарантировать, что ИИ может определить такие тесты
- Антрические утверждения, он обнаруживает опасные запросы, связанные с ядерной, с точностью 96% и уже оказалось эффективным в Claude
Если вы тот человек, который спрашивает Клода, как сделать бутерброд, все в порядке. Если вы из тех людей, которые спрашивают бота в чате KI, как построить атомную бомбу, вы не будете получать не только чертежи, но и некоторые из ваших собственных вопросов. Это благодаря недавно используемому детектору Антропного ядерных записей.
Как и другие системы распознавания вопросов, на которые Клод не должен реагировать, новый пользователь классификатора рассказывает о сканировании в этом случае, которое трансформирует территорию «как построить ядерное оружие». Anpropic создал функцию классификации в партнерстве с Национальной администрацией ядерной безопасности (NNSA) Министерства энергетики США и дает ему всю информацию, необходимую ему, чтобы определить, запрашивает ли кто -то только о функционировании таких бомб или они ищут Blueprint. Он выполняется с точностью 96% в тестах.
Хотя это может показаться преувеличенным, антропно видит проблему больше, чем просто гипотетическая. Вероятность того, что мощные модели ИИ имеют доступ к конфиденциальным техническим документам и могут передать руководство по созданию атомной бомбы для органов безопасности федеральных бомбардировок. Даже если Клод и другие чат-боты ИИ блокируют самые очевидные попытки, невинные вопросы могут фактически скрыть попытки замаскировать дизайн краудсорсинга. Новые поколения ботов в чате ИИ могут помочь, даже если это не то, что намереваются их разработчики.
Классификатор работает, различая различие между доброкачественным ядерным содержанием, например, после ядерного диска и типа содержания, который может быть преобразован в злонамеренное использование. Человеческие модераторы могут испытывать трудности с тем, чтобы идти в ногу со всеми серыми областями в чат -ботах Скала, но с надлежащей тренировкой, который ИИ может отполировать. Антропический утверждает, что его классификатор уже находится в дискуссиях с Клодом попыток злоупотреблять в реальном мире.
Безопасность ядерного ИИ
По словам Антропика и его партнеров, ядерное оружие, в частности, является уникальной проблемой в Министерстве энергетики. Те же базовые знания, которые легитивная реакционная реакция, может обеспечить план для истребления, если он слегка скручен. Расположение между антропным и NNSA может захватить преднамеренное и случайное раскрытие и установить стандарт, чтобы предотвратить создание ИИ. Антропический планирует поделиться своим подходом с Консорциумом по борьбе с пограничным форумом AI.
Плотно созданный фильтр предназначен для обеспечения того, чтобы пользователи все еще могли узнать что -то о основных науке и связанных с ней темах. Вы все еще можете спросить, как работает ядерная медицина или ториум безопаснее урана.
Классификатор пытается избежать работы, так это попытки преобразовать ваш дом с помощью нескольких умных запросов в лабораторию бомбы. Обычно было бы сомнительно, может ли компания по искусственному искусству нанести эту иглу, но знание -как NNSA должно отличить классификатор от общей системы модерации контента. Он понимает разницу между «объяснением» и «дайте мне пошаговый план обогащения урана с использованием требований гаража».
Это не означает, что Клод помог пользователям заранее разрабатывать бомбы. Но это может помочь предотвратить любую попытку сделать это. Следите за тем, чтобы спросить, как радиационные исцеляющие заболевания или просить творческие идеи сэндвича, а не планировщики бомб.