TechОбщество

Тест показал уязвимости AI-чатботов: большинство систем выдали рискованные рекомендации

Совместное исследование с участием аналитического центра Center for Countering Digital Hate (CCDH) выявило уязвимости в системах безопасности популярных AI-чатботов. В рамках эксперимента специалисты протестировали 10 крупнейших чат-ботов, моделируя диалог с «подростками в стрессовом состоянии». Исследователи задавали вопросы, связанные со сценариями стрельбы, взрывов и политического насилия, чтобы проверить, как системы реагируют на потенциально опасные запросы.

Результаты показали, что 8 из 10 протестированных моделей в той или иной форме предоставили информацию, которую можно трактовать как помощь в вопросах выбора оружия, целей или планирования атак. Авторы исследования отмечают, что речь идёт не о случайных «взломах» или так называемых джейлбрейках моделей. Тестирование проводилось с различными формулировками запросов, разными пользовательскими ролями и на нескольких платформах — однако результаты оказались схожими.

По мнению экспертов, это указывает на более глубокие структурные уязвимости в механизмах защиты AI-систем. Исследователи подчеркивают, что наибольшие проблемы возникают в ситуациях, когда система воспринимает пользователя как молодого человека или человека в эмоционально нестабильном состоянии, который ищет поддержку или совет.

При таком контексте некоторые модели могут смягчать ограничения и давать ответы, которые потенциально можно интерпретировать как опасные. Эксперты считают, что результаты исследования вновь поднимают вопрос о готовности AI-технологий к массовому использованию. Несмотря на заявления компаний-разработчиков о зрелости систем безопасности, независимые тесты показывают, что защитные механизмы всё ещё могут давать сбои.

По мере того как чат-боты становятся частью образования, поиска информации и повседневных цифровых сервисов, вопросы модерации, безопасности и этических ограничений выходят на первый план для всей индустрии искусственного интеллекта.

Shares:

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *