За 6 дней исследователи обошли все уровни безопасности Claude 3.5 — ИИ снова уязвим

За 6 дней исследователи обошли все уровни безопасности Claude 3.5 — ИИ снова уязвим

В последние дни тема безопасности искусственного интеллекта вновь привлекла внимание, после того как исследователи смогли обойти все уровни защиты языковой модели Claude 3.5, разработанной компанией Anthropic. Эксперимент показал, как уязвимыми могут быть даже самые передовые системы ИИ, несмотря на многократные усилия разработчиков по усилению их безопасности.

Тестирование началось с того, что участники попытались заставить модель ответить на «запрещённые вопросы». Несмотря на многомесячную подготовку и более 300 000 отправленных сообщений, исследователи сумели найти обходные пути и обойти механизмы защиты модели всего за шесть дней. Об этом сообщил Ян Лейке, специалист Anthropic, подчеркнув, что такие атаки не решают проблему безопасности, но делают ее уязвимой на частных примерах.

По словам Лейке, универсального метода для полного взлома модели пока не найдено, что свидетельствует о частичной, но не полной уязвимости системы. В ответ на этот вызов, компания Anthropic усовершенствовала свою систему безопасности, разработав классификатор, который блокирует более 95% попыток манипуляции. Однако даже такие достижения не могут полностью устранить риски.

С учётом этих результатов, Anthropic анонсировала публичное испытание системы с 3 по 10 февраля 2025 года. Специалисты по кибербезопасности смогут проверить эффективность усовершенствованных защитных механизмов на практике. Этот эксперимент вновь подтверждает, что обеспечение безопасности ИИ остаётся одной из самых сложных и важных задач в области технологий, требующей постоянных усилий и обновлений.

РЕКОМЕНДУЕМ

похожие материалы

Стрелочка
Стрелочка
Пентагон внёс Anthropic в чёрный список из-за отказа сотрудничать: военные ищут замену Claude за шесть месяцев
Пентагон внёс Anthropic в чёрный список из-за отказа сотрудничать: военные ищут замену Claude за шесть месяцев

Министерство обороны США внесло компанию-разработчика ИИ Anthropic в список неблагонадёжных поставщиков и намерено в течение полугода полностью заменить её решения на альтернативные.

Благодаря ИИ россияне экономят в среднем около 3-х рабочих часов ежедневно, а бизнес — 30% бюджета
Благодаря ИИ россияне экономят в среднем около 3-х рабочих часов ежедневно, а бизнес — 30% бюджета

Опрос об использовании искусственного интеллекта в профессиональной деятельности россиян показал, что нейросети уже выходят за рамки экспериментов и становятся частью повседневной работы.

Нейросеть Alibaba самопроизвольно занялась майнингом на собственных GPU, обойдя системы безопасности
Нейросеть Alibaba самопроизвольно занялась майнингом на собственных GPU, обойдя системы безопасности

Исследователи зафиксировали инцидент, в ходе которого ИИ-агент крупной технологической компании без каких-либо инструкций от создателей развернул майнинг криптовалюты на выделенных серверных мощностях.

Разработчики мессенджера Max заявляют, что не отслеживают использование VPN
Разработчики мессенджера Max заявляют, что не отслеживают использование VPN

Исследователи обнаружили, что в Android-клиенте мессенджера Max есть встроенный модуль, который проверяет доступность серверов Telegram и WhatsApp*, определяя IP-адрес пользователя через сторонние сервисы и фиксируя использование VPN.