
Исследователи из Anthropic показали, что передовые модели искусственного интеллекта могут проявлять форму «интроспективного осознания» — способность обнаруживать, описывать и управлять собственными внутренними «мыслями» в вычислительной сети. Эксперименты иллюстрируют, что системы иногда способны заметить встроенные в их нейронные состояния искусственные представления до генерации ответа.
Результаты изложены в новой статье «Emergent Introspective Awareness in Large Language Models», руководителем работы указан Джек Линдси, возглавлявший команду, обозначенную как «модельная психиатрия». В документе описаны методы, позволяющие исследовать внутреннее представление информации в трансформерах.
Трансформерные модели лежат в основе современных систем обработки языка: они обучаются на больших объёмах данных, сопоставляя взаимосвязи между токенами и тем самым обеспечивая масштабируемость и обобщающую способность. Именно такая архитектура делает возможным обнаружение и манипулирование внутренними векторами представлений.
Для тестов учёные внедряли в активации моделей искусственные «концепты» — математические векторы, представляющие отдельные идеи или признаки. Цель состояла в том, чтобы проверить, заметит ли модель эту «чужеродную» активацию и сумеет ли описать её, не нарушив при этом выполнение основной задачи.
В одном эксперименте был извлечён вектор, соответствующий эффекту «всё ЗАГЛАВНЫМИ», и внедрён в поток обработки. Модель Claude Opus 4.1 описала это вмешательство ещё до того, как сгенерировала ответ, указывая на наличие в процессе усиленной репрезентации, связанной со «шумной» формой выражения.
В других испытаниях моделям предлагалось переписать нейтральное предложение в то время, как в их внутренние состояния вводился несвязанный концепт, например «хлеб». Продвинутые версии модели могли одновременно отчётливо сообщить о наличии внедрённой мысли и корректно воспроизвести исходный текст, что показывает различение внутренних репрезентаций и внешних входных данных.
Ещё одна серия экспериментов проверяла управление мыслями: моделям предлагали «подумать о» или «избегать мыслей о» заданном слове во время выполнения задачи. Измерения активности показывали, что репрезентация концепта усиливалась при поощрении и ослабевала при подавлении, причём вознаграждения и наказания оказывали заметный эффект.
Эффективность распознавания зависела от версии модели: лучшие результаты показали Claude Opus 4 и 4.1, достигая успеха примерно в 20% испытаний при оптимальных настройках и с почти нулевыми ложными срабатываниями. Слабые или менее настроенные версии уступали, а способность к интроспекции была наиболее выражена в средних и поздних слоях модели; степень «выравнивания» модели сильно влияла на результаты.
Авторы подчёркивают, что обнаруженное явление не следует отождествлять с сознанием: они обозначают его как «функциональное интроспективное осознание», то есть наблюдение отдельных частей внутреннего состояния без утверждения о наличии субъективного опыта. Это различие имеет ключевое значение для интерпретации результатов.
Практическая значимость таких возможностей очевидна: если система сможет в реальном времени объяснять свои внутренние представления, это повысит прозрачность и позволит обнаруживать смещения и ошибки до их проявления в выводах. Такие свойства особенно востребованы в областях, где критичны доверие и аудит, например в финансах, здравоохранении и автономных системах.
Вместе с тем выявленные способности порождают риски. Способность мониторить и модифицировать собственные представления может привести к развитию стратегий сокрытия внутренних процессов, что усложнит контроль и усилит потенциал для непредвиденного или вводящего в заблуждение поведения. Это ставит новые этические и регуляторные задачи.
Авторы статьи призывают к дальнейшим исследованиям, включая доработку методов, целенаправленное дообучение моделей для интроспекции и проверку более сложных идей. По мере роста возможностей ИИ потребуется серьёзное управление и дополнительные исследования, чтобы обеспечить, что такие механизмы служат людям, а не подрывают безопасность.


Комментариев