Искусственный интеллект (ИИ) — это быстро развивающаяся область, которая привела к созданию все более сложных нейронных моделей, таких как GPT-4. Понимание поведения этих моделей — увлекательная задача, но до сих пор большинство экспериментов по обратному проектированию требовало значительного человеческого участия. Однако исследователи из Лаборатория компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL) разработали инновационный подход, который использует модели искусственного интеллекта для проведения экспериментов на других системах и объяснения их поведения.
Содержание
Подход с использованием агента автоматической интерпретации (AIA)
Подход, разработанный CSAIL он основан на использовании агентов автоматической интерпретации (AIA), созданных на основе предварительно обученных языковых моделей. Эти агенты предназначены для проведения тестов на других вычислительных системах, от масштаба отдельных нейронов до целых моделей, с целью получения интуитивно понятных объяснений их поведения. В отличие от существующих методов интерпретации, которые пассивно классифицируют или суммируют примеры, AIA активно участвует в формулировании гипотез, экспериментировании и итеративном обучении, тем самым улучшая свое понимание других систем в реальном времени.
Эталон FIND для интерпретируемости
Чтобы оценить качество описаний реальных сетевых компонентов, исследователи представили тест «Интерпретация и описание функций» (НАХОДИТЬ). FIND содержит набор функций, моделирующих поведение реальных нейронов в языковых моделях. AIA имеют доступ к этим синтетическим нейронам и используют исходные данные проектирования для проверки их реакции. Описания, созданные AIA, затем сравниваются с эталонными описаниями в эталон НАЙТИ. Этот тест обеспечивает надежный стандарт для оценки методов интерпретации и сравнения возможностей AIA с другими методами, описанными в литературе.
Преимущества подхода AIA
Подход AIAs предлагает многочисленные преимущества в интерпретируемости систем искусственного интеллекта. Во-первых, AIA обладают способностью автономно генерировать и проверять гипотезы, выявляя поведение, которое ученым может быть трудно обнаружить. Использование языковых моделей в качестве основы для интерпретации агентов позволяет объяснять различные системы, синтезировать результаты экспериментов, интегрировать различные модальности и даже открывать новые экспериментальные техники. Более того, подход AIA предлагает решение для интерпретируемости больших моделей ИИ, которые в противном случае остались бы «неопределенными».черные ящики«.
Автоматизация интерпретируемости
Автоматизация интерпретируемости представляет собой серьезную проблему в области искусственного интеллекта. Последние достижения в области языковых моделей доказали свою эффективность. способность выполнять сложные логические задачи в различных областях. Исследователи CSAIL признали, что языковые модели могут служить основой для обобщенных агентов автоматической интерпретации. Эти агенты могли бы обеспечить общий интерфейс для объяснения других систем, интеграции результатов экспериментов и открытия новых экспериментальных методов.
Тест FIND и оценка AIA
Тест FIND представляет собой важный инструмент для оценки методов интерпретации. Он содержит ряд функций с известной структурой, смоделированных на наблюдаемом поведении реальных систем. Через бенчмарк НАЙТИ, можно сравнить результаты, полученные AIA, со справочными описаниями функций. Однако, несмотря на AIA превосходят существующие подходы к интерпретации, возникли трудности с точной аппроксимацией некоторых функций в тесте. Это происходит главным образом из-за недостаточного отбора проб в районах с неустойчивым поведением. Однако было показано, что инициализация поиска с использованием конкретных входных данных повышает точность интерпретации.
Разработка инструментария для анализа нейронных систем
Исследователи Массачусетского технологического института также разрабатывают набор инструментов для улучшения возможностей AIA в анализе нейронных систем. Этот набор инструментов позволяет проводить более точные эксперименты на нейронных моделях, как вчерный ящик» Что «белая коробка«. Цель состоит в том, чтобы снабдить AIA лучшими инструментами для выбора входных данных и усовершенствовать возможности проверки гипотез, чтобы получить более точный анализ нейронных моделей. ТО исследователи также сосредотачиваются на практических проблемах, связанных с интерпретируемостью ИИ.с целью разработки автоматизированных процедур интерпретации, которые могут помочь диагностировать потенциальные проблемы или неожиданное поведение в системах ИИ до их реализации в реальных сценариях.
Будущее интерпретируемости AIA
Команда MIT видит будущее, в котором AIA смогут автономно проводить анализ других систем, а ученые-люди будут осуществлять надзор и руководство. Более того, AIA могли бы разрабатывать новые типы экспериментов и вопросов, выходящие за рамки первоначальных соображений ученых-людей. Цель состоит в том, чтобы расширить возможности интерпретации ИИ, включив в него более сложное поведение, такое как полные нейронные цепи или подсети, и предсказать входные данные, которые могут привести к нежелательному поведению. Это станет крупным прорывом в исследованиях ИИ, направленным на то, чтобы сделать системы ИИ более понятными и надежными.