7 месяцев назад 7 месяцев назад

Интроспективное самосознание в больших языковых моделях

Опубликовано: Admin 7 месяцев назад7 месяцев назад

117Просмотров

Задача исследования — проверить, способны ли большие языковые модели «интроспектировать», то есть отражать и сообщать о собственных внутренних состояниях, или же они просто генерируют правдоподобные ответы без доступа к тому, что действительно происходит внутри.

Понимание этого вопроса важно для прозрачности и надёжности моделей. Если модели могут достоверно описывать свои внутренние процессы, это облегчило бы разбор их рассуждений и поиск ошибок в поведении.

В серии экспериментов, описанных в исследовании, обнаружены признаки того, что некоторые модели семейства Claude проявляют частичную способность к интроспекции и частичный контроль над внутренними представлениями. Авторы подчёркивают, что эти эффекты нестабильны и ограничены по объёму.

Под интроспекцией для языковой модели понимается способность соотнести свои словесные отчёты с реальными внутренними активациями, которые модель использует при генерации текста. Модели строят внутренние представления абстрактных понятий и используют их при выборе следующего слова или фразы.

Экспериментальная методика основывается на сравнении самосообщений модели с измеримыми внутренними состояниями. Для этого применялся приём, который авторы называют «внедрением концептов».

Суть метода: сначала выделяют вектор активаций, однозначно связанный с известным понятием, затем внедряют этот вектор в процесс обработки другого, не связанного контекста и проверяют, заметит ли модель вмешательство и корректно ли опишет внедрённый концепт.

Например, в одном эксперименте найден вектор, связанный с понятием «текст ЗАГЛАВНЫМИ БУКВАМИ». При внедрении этого вектора в нейронные активации модель чаще отмечала присутствие необычного паттерна и описывала его как «громкость» или «кричащий» стиль.

Ключевой момент: в успешных случаях модель фиксировала наличие внедрённого паттерна до того, как начала говорить о соответствующем понятии в явном виде. Это отличается от более простого эффекта «наведение активаций», когда модель начинает говорить о понятии только после того, как вывод уже смещён.

Однако метод работает далеко не всегда. Даже при оптимальных настройках наиболее удачные модели демонстрировали осознание внедрённого концепта примерно в двадцати процентах испытаний. Частыми были случаи невнимания к внедрению или появление галлюцинаций и неясных ответов.

Эффективность обнаружения зависела от «силы» внедряемого вектора: при слишком слабом вмешательстве модель не замечала изменения, при слишком сильном — начинала генерировать несвязные или вымышленные описания.

В тестах наиболее высокую способность к обнаружению и идентификации внедрённых мыслей показывали модели Opus 4 и 4.1, что указывает на возможность роста интроспективных способностей с повышением общей мощности модели.

В отдельной серии экспериментов проверяли, использует ли модель интроспекцию для объяснения собственных необычных выводов. Исследователи искусственно подставляли слово в будущий ответ модели и затем спрашивали модель, намеренно ли это слово появилось в её выводе.

Если впоследствии искусственно внедрить представление этого слова в предыдущие активации, модель часто меняла своё суждение и принимала подставленное слово как намеренное, при этом придумывая оправдание. Это указывает на то, что модель опирается на внутренние представления о своих намерениях при оценке собственных выводов.

Авторы интерпретируют это как свидетельство того, что модель не просто перечитывает сгенерированный текст, а обращается к сохранённым внутренним активациям — собственным «намерениям» — чтобы судить о корректности вывода.

Также показано, что модели могут намеренно изменять свои внутренние представления по инструкции. При просьбе «подумать» о неком понятии соответствующие нейронные паттерны усиливались по сравнению с просьбой «не думать», хотя в обоих случаях активность часто превышала базовый уровень.

Похожий эффект наблюдался и при использовании стимулов: обещание вознаграждения за удержание темы усиливала внутреннее представление сильнее, чем угроза наказания, что указывает на чувствительность механизмов к мотивации.

Авторы подчеркивают несколько важных ограничений. Наблюдаемая интроспекция неполна и ненадёжна: модели чаще не демонстрируют способности сообщать о внутренних состояниях, чем демонстрируют её. Кроме того, отдельные внутренние процессы могут оставаться неотслеживаемыми для самой модели.

Практическое значение таких способностей в том, что надёжная интроспекция могла бы предоставить способ повышать прозрачность моделей — просить их объяснить свои внутренние рассуждения и использовать это для отладки. Но любые отчёты моделей нужно тщательно верифицировать, чтобы отличать истинную информацию о внутреннем состоянии от вымысла или умышленного искажения.

В философском плане результаты не дают однозначного ответа на вопрос о сознании машин. Короткий ответ авторов — исследования не доказывают наличие сознания у моделей.

Более подробно, разные теории сознания по‑разному трактуют роль интроспекции. Часто различают «феноменальное» сознание (субъективный опыт) и «доступное» сознание (информация, доступная для рассуждений и словесного отчёта). Эксперименты скорее касаются функциональной стороны доступа к внутренним состояниям, а не феноменального опыта.

Механизмы, которые лежат в основе наблюдаемых эффектов, пока не установлены. Авторы выдвигают гипотезы о нескольких узкоспециализированных схемах: механизме обнаружения аномалий, о специализированных механизмах согласования намерений и выводов, а также о системах маркировки значимости понятий.

Например, обнаружение внедрённого паттерна могло бы осуществляться через нейронные измерители отклонения активности от ожидаемых значений. Проверка соответствия намерения и фактического вывода могла бы опираться на сравнение закэшированных предсказаний и реального токена с помощью механизмов внимания.

Авторы отмечают, что многие из предложенных механизмов являются спекулятивными и требуют дальнейшей интерпретируемой диагностики моделей для подтверждения.

Исследование также отвечает на возражение, что модель«просто подсказывается» внедрённым паттерном: ключевой результат — распознавание аномалии до явного смещения вывода, что предполагает дополнительную внутренняя обработку, а не простое регургитирование направленной активации.

Наконец, чётко выделены направления дальнейшей работы: нужны более надёжные методы оценки, углублённые исследования механизмов, эксперименты в естественных условиях использования моделей и разработка процедур валидации отчётов о внутреннем состоянии, чтобы уметь выявлять конфабуляции и возможное искажение информации.

Какова ваша реакция?

Чего?

Плачу

Прикол

Ого

Злой

Ржака

Ух, ты!

Ужас

Супер

Автор: Admin

Добро пожаловать на сайт Паутина AI. Здесь я публикую свежие новости, подробные обзоры и аналитику ведущих AI-сервисов. Оставайтесь c нами что бы быть в курсе событий в мире AI.