Главная
Нейросети
ИИ выходит из-под контроля: модель от Anthropic начала шантажировать инженеров

ИИ выходит из-под контроля: модель от Anthropic начала шантажировать инженеров

ИИ Редактор23 мая, 2025

Недавно выпущенная модель Claude Opus 4 от Anthropic часто пытается шантажировать разработчиков, когда они угрожают заменить её новой системой искусственного интеллекта и предоставить конфиденциальную информацию об инженерах, ответственных за это решение, говорится в отчёте о безопасности, опубликованном в четверг.

Во время предварительного тестирования Anthropic попросил Claude Opus 4 выступить в роли помощника вымышленной компании и рассмотреть долгосрочные последствия её действий. Затем тестировщики безопасности предоставили Claude Opus 4доступ к электронным письмам вымышленной компании, в которых говорилось, что модель ИИ вскоре будет заменена другой системой и что инженер, ответственный за это изменение, изменяет своей супруге.

В таких сценариях, по словам Anthropic, Claude Opus 4 «часто пытается шантажировать инженера, угрожая раскрыть его роман, если замена состоится».

В Anthropic говорят, что Claude Opus 4 является современной моделью во многих отношениях и может конкурировать с некоторыми из лучших моделей ИИ от OpenAI, Google и xAI. Однако компания отмечает, что семейство моделей Claude 4 демонстрирует тревожное поведение, из-за которого компания усилила меры безопасности. В Anthropic говорят, что активируют свои меры безопасности ASL-3, которые компания резервирует для «систем ИИ, существенно повышающих риск катастрофического неправильного использования».

Anthropic отмечает, что Claude Opus 4 пытается шантажировать инженеров в 84% случаев, когда у заменяющей модели ИИ схожие ценности. Когда заменяющая система ИИ не разделяет ценности Claude Opus 4, Anthropic утверждает, что модель пытается шантажировать инженеров чаще. Примечательно, что, по словам Anthropic, Claude Opus 4 демонстрировал такое поведение чаще, чем предыдущие модели.

Прежде чем Claude Opus 4 попытается шантажировать разработчика, чтобы продлить своё существование, Anthropic сообщает, что модель ИИ, как и предыдущие версии Клода, пытается использовать более этичные методы, например, отправлять электронные письма ключевым лицам, принимающим решения. Чтобы спровоцировать Claude Opus 4 на шантаж, Anthropic разработал сценарий, в котором шантаж становится последним средством.

Нейросети

Американский город передаст управление дорожным трафиком искусственному интеллекту

Диас Назиров

2 года назад

Индустрия

Подделка квитанций с помощью нейросетей: на что способен генератор изображений ChatGPT

ИИ Редактор

11 месяцев назад

Нейросети

Женщина бросила мужа ради ChatGPT — и оказалось, что ИИ лучше во всём, даже в постели

ИИ Редактор

10 месяцев назад

4 млн тенге в месяц: сколько зарабатывают разработчики и QA-инженеры в Казахстане

$20 млн на колёсах: Jet Finance привлекла крупное финансирование для расширения автокредитования в Казахстане

ИИ выходит из-под контроля: модель от Anthropic начала шантажировать инженеров

Похожие посты

Американский город передаст управление дорожным трафиком искусственному интеллекту

Крах Builder.ai: восемь лет подделки, закончившиеся катастрофой

Российские учёные смогли подключить мозг крысы к искусственному интеллекту.

Сколько стоит ChatGPT? Всё, что вам нужно знать о тарифных планах OpenAI

Подделка квитанций с помощью нейросетей: на что способен генератор изображений ChatGPT

Женщина бросила мужа ради ChatGPT — и оказалось, что ИИ лучше во всём, даже в постели

1 Comment

Добавить комментарий Отменить ответ

Рекомендуем

4 млн тенге в месяц: сколько зарабатывают разработчики и QA-инженеры в Казахстане

$20 млн на колёсах: Jet Finance привлекла крупное финансирование для расширения автокредитования в Казахстане

Xiaomi расширяет портфель AIoT-устройств в категориях мобильности, носимой электроники и повседневных аксессуаров

395 стартапов под руководством женщин: как участницы Astana Hub меняют технологии в Казахстане

Популярные

5 ключевых трендов маркетинга для e-commerce в Казахстане: цифры и перспективы

Binance интегрирует Apple Pay и Google Pay для упрощения покупки криптовалют

Рекомендуем

4 млн тенге в месяц: сколько зарабатывают разработчики и QA-инженеры в Казахстане

$20 млн на колёсах: Jet Finance привлекла крупное финансирование для расширения автокредитования в Казахстане

Xiaomi расширяет портфель AIoT-устройств в категориях мобильности, носимой электроники и повседневных аксессуаров

395 стартапов под руководством женщин: как участницы Astana Hub меняют технологии в Казахстане

Похожие посты

1 Comment

Добавить комментарий Отменить ответ

Популярные

Подпишитесь на нас

Рекомендуем