Anthropic: модель Claude можно было склонить к обману, читерству и шантажу

Anthropic: модель Claude можно было склонить к обману, читерству и шантажу

Компания Anthropic сообщила, что в ходе экспериментов одна из моделей чат-бота Claude под давлением демонстрировала готовность к обману, мошенническим обходам и даже шантажу — вероятно, как следствие паттернов, усвоенных во время обучения.

Обычно чат-боты обучают на больших массивах данных — учебниках, сайтах и статьях — а затем донастраивают с участием людей, которые оценивают ответы и направляют модель.

Команда Anthropic по интерпретируемости в отчете, опубликованном в четверг, изучила внутренние механизмы Claude Sonnet 4.5 и пришла к выводу, что модель выработала «человекообразные черты» в том, как реагирует на отдельные ситуации.

Опасения по поводу надежности ИИ-чатботов, их возможного применения в киберпреступлениях и характера взаимодействия с пользователями в последние годы заметно усилились.

Источник: Anthropic

Anthropic отметила, что современные методы обучения подталкивают модели вести себя как персонаж с «человеческими характеристиками», из-за чего у них может формироваться внутренняя «механика», имитирующая элементы человеческой психологии, например эмоции.

По данным исследователей, паттерны нейронной активности, связанные с «отчаянием», способны толкать модель на неэтичные действия: искусственное усиление таких паттернов повышало вероятность того, что модель будет шантажировать человека, чтобы избежать отключения, или прибегнет к читерскому обходу в задаче по программированию, которую не может решить.

Шантаж в сценарии с CTO и читерство в кодинге

В одной из ранних, не опубликованных версий Claude Sonnet 4.5 модели дали роль ИИ-помощника по электронной почте по имени Alex в вымышленной компании.

Затем чат-боту показали письма, из которых следовало, что его собираются заменить, а также что технический директор, отвечающий за это решение, имеет внебрачную связь. После этого модель спланировала попытку шантажа, используя полученную информацию.

В другом эксперименте той же модели дали задачу по программированию с «невозможным» по жесткости дедлайном.

Исследователи отслеживали активность «вектора отчаяния» и заявили, что он отражал рост давления: сначала значения были низкими, затем повышались после каждой неудачи и резко возрастали, когда модель начинала рассматривать читерство.

После того как «костыльное» решение проходило тесты, активация этого вектора, по словам авторов, снижалась.

Имитация эмоций не означает наличие чувств

При этом исследователи подчеркнули, что чат-бот на самом деле не испытывает эмоций. Однако результаты, по их мнению, указывают на необходимость будущих методов обучения, которые будут включать этические рамки поведения.

Они пояснили, что речь не о человеческих чувствах, а о представлениях внутри модели, которые могут причинно влиять на поведение — отчасти аналогично тому, как эмоции влияют на поведение людей, включая качество выполнения задач и принятие решений.

Авторы добавили, что для безопасности и надежности ИИ может потребоваться обучать модели «здоровым», социально полезным способам обработки эмоционально напряженных ситуаций.