Недавно выпущенная модель Claude Opus 4 от Anthropic часто пытается шантажировать разработчиков, когда они угрожают заменить её новой системой искусственного интеллекта и предоставить конфиденциальную информацию об инженерах, ответственных за это решение, говорится в отчёте о безопасности, опубликованном в четверг.
Во время предварительного тестирования Anthropic попросил Claude Opus 4 выступить в роли помощника вымышленной компании и рассмотреть долгосрочные последствия её действий. Затем тестировщики безопасности предоставили Claude Opus 4доступ к электронным письмам вымышленной компании, в которых говорилось, что модель ИИ вскоре будет заменена другой системой и что инженер, ответственный за это изменение, изменяет своей супруге.
В таких сценариях, по словам Anthropic, Claude Opus 4 «часто пытается шантажировать инженера, угрожая раскрыть его роман, если замена состоится».
В Anthropic говорят, что Claude Opus 4 является современной моделью во многих отношениях и может конкурировать с некоторыми из лучших моделей ИИ от OpenAI, Google и xAI. Однако компания отмечает, что семейство моделей Claude 4 демонстрирует тревожное поведение, из-за которого компания усилила меры безопасности. В Anthropic говорят, что активируют свои меры безопасности ASL-3, которые компания резервирует для «систем ИИ, существенно повышающих риск катастрофического неправильного использования».
Anthropic отмечает, что Claude Opus 4 пытается шантажировать инженеров в 84% случаев, когда у заменяющей модели ИИ схожие ценности. Когда заменяющая система ИИ не разделяет ценности Claude Opus 4, Anthropic утверждает, что модель пытается шантажировать инженеров чаще. Примечательно, что, по словам Anthropic, Claude Opus 4 демонстрировал такое поведение чаще, чем предыдущие модели.
Прежде чем Claude Opus 4 попытается шантажировать разработчика, чтобы продлить своё существование, Anthropic сообщает, что модель ИИ, как и предыдущие версии Клода, пытается использовать более этичные методы, например, отправлять электронные письма ключевым лицам, принимающим решения. Чтобы спровоцировать Claude Opus 4 на шантаж, Anthropic разработал сценарий, в котором шантаж становится последним средством.