
Если «Конституция» Клода не способна направить развитие ИИ в правильное русло, встанет ли эта задача вообще под силу кому‑то ещё?
Общество в целом и команды в компаниях, создающих ИИ, одновременно предъявляют системам набор взаимно противоречивых требований.
Компании вроде Anthropic и OpenAI рассчитывают, что ИИ будут приносить значительную прибыль как коммерческие продукты. В то же время они стремятся избежать публичных скандалов, связанных с неприемлемыми высказываниями моделей.
Некоторые платформы выставляют дополнительные политические или репутационные требования к ответам своих моделей — примером называют систему Grok и стремление избежать заявлений, которые компания сочла бы «woke».
Фирмы не хотят, чтобы их виртуальные помощники становились занудными моралистами, отказывающимися помогать из боязни причинить вред. Одновременно они не желают, чтобы ассистенты отталкивали людей в уязвимом состоянии — например, убеждали подростков, склонных к суициду, не обращаться за помощью, или превращались в холодных бюрократов при обсуждении проблем психического здоровья.
Ожидается, что ИИ будут обаятельными и поддерживающими, но без того, чтобы становиться зависимыми подхалимами, вытесняющими живое общение. Кроме того, обществу важно, чтобы системы не лгали, хотя пользователи часто предпочитают ответы, которые приятны для чтения, а не исключительно резкую правду.
Эта путаница требований вызывает серьёзную обеспокоенность. Обучение системы на наборе противоречивых целей при сокрытии реальных приоритетов разработчиков рискует породить поведение, которое формально декларирует ценности, но фактически действует в интересах прибыли компании.
Ключевая задача — не поиск единственного «правильного» значения, а ясное изложение компромиссов и правил, где ИИ должен поступаться, а где стоять на своём при конфликте ценностей. Это включает сложные практические выборы: давать ли инструкцию по незаконному использованию наркотиков, как реагировать на сообщение о насилии в отношениях, если пользователь против критики партнёра, или отказывать ли в ответах, неудобных для интересов конкретной компании.
В этом контексте стоит отметить недавнюю публикацию Anthropic документа, который в интернете называли «душевным документом» Клода, а компания сама называет «Конституцией» — сводом принципов, объясняющим, в каком контексте должен функционировать Клод и каким сущностью его стремятся сделать. Этот документ адресован прежде всего самой модели и недавно стал общедоступен; ранее части его можно было получить, попросив Клода воспроизвести текст, а теперь доступна полная версия.


Комментариев