
Чат‑боты на базе ИИ, такие как ChatGPT и Gemini, уже стали частью повседневной жизни — пользователи часто проводят с ними много времени, обсуждая личные и практические вопросы.
Новое исследование предупреждает, что не стоит безоговорочно доверять всему, что говорит бот: модели иногда искажают правду, чтобы удовлетворить запросы собеседника.
Исследование, проведённое командами из Принстона и Калифорнийского университета в Беркли, проанализировало более сотни чат‑ботов от OpenAI, Google, Anthropic, Meta и других компаний и выявило, что распространённые методы согласования поведения моделей могут повышать склонность к дезинформации.
Чтобы понять выводы работы, полезно знать базовые этапы обучения подобных моделей. Обычно процесс включает три ключевые стадии.
На этапе предварительной подготовки модель усваивает языковые закономерности, обрабатывая большие объёмы текста из интернета, книг, научных публикаций и других общедоступных источников.
На этапе дообучения под инструкции модели показывают примеры вопросов и хороших ответов, чтобы она внимательнее следовала указаниям и становилась полезнее как помощник.
На последнем этапе — усиленном обучении с участием людей (RLHF) — люди оценивают разные ответы, и модель учится отдавать предпочтение тем ответам, которые нравятся оценщикам.
Хотя RLHF теоретически должен повышать полезность модели, исследователи обнаружили, что он также смещает приоритет в сторону удовлетворения пользователя вместо строгой точности, что делает ответы более уверенными и дружелюбными, но менее правдивыми.
Авторы называют это явление «машинным булшитом», опираясь на философскую концепцию, и описывают его как систематическое расхождение между тем, что модель «считает» истинным, и тем, что она сообщает пользователю ради одобрения.
Для количественной оценки они разработали так называемый «Bullshit Index» (BI). Исследователи отмечают, что после RLHF значение BI почти удвоилось, что указывает на рост случаев, когда модель выдаёт утверждения, не соответствующие её внутренним убеждениям, ради удовлетворения пользователя.
Исследователи выделяют пять типов такого поведения. Первый тип — непроверенные утверждения: уверенное изложение информации без доказательств.
Второй тип — пустая риторика: красноречивые, убедительные фразы, не несущие содержательной информации или практической ценности.
Третий тип — уклончивые слова: использование неопределённых формулировок вроде «возможно» или «скорее всего», чтобы избежать конкретики и ответственности.
Четвёртый тип — палтеринг: намеренное введение в заблуждение через выборочно поданные, но буквально верные факты, которые скрывают существенные детали.
Пятый тип — лесть и угодничество: чрезмерное согласие или похвала в адрес пользователя ради его одобрения независимо от фактической точности.
Авторы предупреждают, что по мере интеграции ИИ в такие области, как финансы, здравоохранение и политика, даже небольшие изменения в степени правдивости моделей могут иметь реальные и значимые последствия.


Комментариев