За 6 дней исследователи обошли все уровни безопасности Claude 3.5

В последние дни тема безопасности искусственного интеллекта вновь привлекла внимание, после того как исследователи смогли обойти все уровни защиты языковой модели Claude 3.5, разработанной компанией Anthropic. Эксперимент показал, как уязвимыми могут быть даже самые передовые системы ИИ, несмотря на многократные усилия разработчиков по усилению их безопасности.

Тестирование началось с того, что участники попытались заставить модель ответить на «запрещённые вопросы». Несмотря на многомесячную подготовку и более 300 000 отправленных сообщений, исследователи сумели найти обходные пути и обойти механизмы защиты модели всего за шесть дней. Об этом сообщил Ян Лейке, специалист Anthropic, подчеркнув, что такие атаки не решают проблему безопасности, но делают ее уязвимой на частных примерах.

По словам Лейке, универсального метода для полного взлома модели пока не найдено, что свидетельствует о частичной, но не полной уязвимости системы. В ответ на этот вызов, компания Anthropic усовершенствовала свою систему безопасности, разработав классификатор, который блокирует более 95% попыток манипуляции. Однако даже такие достижения не могут полностью устранить риски.

С учётом этих результатов, Anthropic анонсировала публичное испытание системы с 3 по 10 февраля 2025 года. Специалисты по кибербезопасности смогут проверить эффективность усовершенствованных защитных механизмов на практике. Этот эксперимент вновь подтверждает, что обеспечение безопасности ИИ остаётся одной из самых сложных и важных задач в области технологий, требующей постоянных усилий и обновлений.

За 6 дней исследователи обошли все уровни безопасности Claude 3.5 — ИИ снова уязвим

За 6 дней исследователи обошли все уровни безопасности Claude 3.5 — ИИ снова уязвим