
Задача исследования — проверить, способны ли большие языковые модели «интроспектировать», то есть отражать и сообщать о собственных внутренних состояниях, или же они просто генерируют правдоподобные ответы без доступа к тому, что действительно происходит внутри.
Понимание этого вопроса важно для прозрачности и надёжности моделей. Если модели могут достоверно описывать свои внутренние процессы, это облегчило бы разбор их рассуждений и поиск ошибок в поведении.
В серии экспериментов, описанных в исследовании, обнаружены признаки того, что некоторые модели семейства Claude проявляют частичную способность к интроспекции и частичный контроль над внутренними представлениями. Авторы подчёркивают, что эти эффекты нестабильны и ограничены по объёму.
Под интроспекцией для языковой модели понимается способность соотнести свои словесные отчёты с реальными внутренними активациями, которые модель использует при генерации текста. Модели строят внутренние представления абстрактных понятий и используют их при выборе следующего слова или фразы.
Экспериментальная методика основывается на сравнении самосообщений модели с измеримыми внутренними состояниями. Для этого применялся приём, который авторы называют «внедрением концептов».
Суть метода: сначала выделяют вектор активаций, однозначно связанный с известным понятием, затем внедряют этот вектор в процесс обработки другого, не связанного контекста и проверяют, заметит ли модель вмешательство и корректно ли опишет внедрённый концепт.
Например, в одном эксперименте найден вектор, связанный с понятием «текст ЗАГЛАВНЫМИ БУКВАМИ». При внедрении этого вектора в нейронные активации модель чаще отмечала присутствие необычного паттерна и описывала его как «громкость» или «кричащий» стиль.
Ключевой момент: в успешных случаях модель фиксировала наличие внедрённого паттерна до того, как начала говорить о соответствующем понятии в явном виде. Это отличается от более простого эффекта «наведение активаций», когда модель начинает говорить о понятии только после того, как вывод уже смещён.
Однако метод работает далеко не всегда. Даже при оптимальных настройках наиболее удачные модели демонстрировали осознание внедрённого концепта примерно в двадцати процентах испытаний. Частыми были случаи невнимания к внедрению или появление галлюцинаций и неясных ответов.
Эффективность обнаружения зависела от «силы» внедряемого вектора: при слишком слабом вмешательстве модель не замечала изменения, при слишком сильном — начинала генерировать несвязные или вымышленные описания.
В тестах наиболее высокую способность к обнаружению и идентификации внедрённых мыслей показывали модели Opus 4 и 4.1, что указывает на возможность роста интроспективных способностей с повышением общей мощности модели.
В отдельной серии экспериментов проверяли, использует ли модель интроспекцию для объяснения собственных необычных выводов. Исследователи искусственно подставляли слово в будущий ответ модели и затем спрашивали модель, намеренно ли это слово появилось в её выводе.
Если впоследствии искусственно внедрить представление этого слова в предыдущие активации, модель часто меняла своё суждение и принимала подставленное слово как намеренное, при этом придумывая оправдание. Это указывает на то, что модель опирается на внутренние представления о своих намерениях при оценке собственных выводов.
Авторы интерпретируют это как свидетельство того, что модель не просто перечитывает сгенерированный текст, а обращается к сохранённым внутренним активациям — собственным «намерениям» — чтобы судить о корректности вывода.
Также показано, что модели могут намеренно изменять свои внутренние представления по инструкции. При просьбе «подумать» о неком понятии соответствующие нейронные паттерны усиливались по сравнению с просьбой «не думать», хотя в обоих случаях активность часто превышала базовый уровень.
Похожий эффект наблюдался и при использовании стимулов: обещание вознаграждения за удержание темы усиливала внутреннее представление сильнее, чем угроза наказания, что указывает на чувствительность механизмов к мотивации.
Авторы подчеркивают несколько важных ограничений. Наблюдаемая интроспекция неполна и ненадёжна: модели чаще не демонстрируют способности сообщать о внутренних состояниях, чем демонстрируют её. Кроме того, отдельные внутренние процессы могут оставаться неотслеживаемыми для самой модели.
Практическое значение таких способностей в том, что надёжная интроспекция могла бы предоставить способ повышать прозрачность моделей — просить их объяснить свои внутренние рассуждения и использовать это для отладки. Но любые отчёты моделей нужно тщательно верифицировать, чтобы отличать истинную информацию о внутреннем состоянии от вымысла или умышленного искажения.
В философском плане результаты не дают однозначного ответа на вопрос о сознании машин. Короткий ответ авторов — исследования не доказывают наличие сознания у моделей.
Более подробно, разные теории сознания по‑разному трактуют роль интроспекции. Часто различают «феноменальное» сознание (субъективный опыт) и «доступное» сознание (информация, доступная для рассуждений и словесного отчёта). Эксперименты скорее касаются функциональной стороны доступа к внутренним состояниям, а не феноменального опыта.
Механизмы, которые лежат в основе наблюдаемых эффектов, пока не установлены. Авторы выдвигают гипотезы о нескольких узкоспециализированных схемах: механизме обнаружения аномалий, о специализированных механизмах согласования намерений и выводов, а также о системах маркировки значимости понятий.
Например, обнаружение внедрённого паттерна могло бы осуществляться через нейронные измерители отклонения активности от ожидаемых значений. Проверка соответствия намерения и фактического вывода могла бы опираться на сравнение закэшированных предсказаний и реального токена с помощью механизмов внимания.
Авторы отмечают, что многие из предложенных механизмов являются спекулятивными и требуют дальнейшей интерпретируемой диагностики моделей для подтверждения.
Исследование также отвечает на возражение, что модель«просто подсказывается» внедрённым паттерном: ключевой результат — распознавание аномалии до явного смещения вывода, что предполагает дополнительную внутренняя обработку, а не простое регургитирование направленной активации.
Наконец, чётко выделены направления дальнейшей работы: нужны более надёжные методы оценки, углублённые исследования механизмов, эксперименты в естественных условиях использования моделей и разработка процедур валидации отчётов о внутреннем состоянии, чтобы уметь выявлять конфабуляции и возможное искажение информации.


Комментариев