Подъем по команде: эксперты предупредили о «спящих» угрозах в нейросетях

18.10.2024 10:15

 

Киберпреступники могут активировать их специальными сообщениями

Дмитрий Булгаков

ото: ИЗВЕСТИЯ/Эдуард Корниенко

Киберпреступники могут проводить атаки на искусственный интеллект благодаря «спящим» угрозам в нем — об этом предупредили эксперты. Такие атаки начинаются лишь после того, как модель ИИ получит от хакеров специальное триггерное сообщение, поэтому подобные риски сложно выявлять заранее. Подробности о том, как спящие угрозы в нейросетях могут стать опасным инструментом киберпреступников, читайте в материале «Известий».

Скрытые закладки в моделях ИИ

О новых кибератаках рассказали исследователи из компании HiddenLayer. Они представили технику ShadowLogic, которая позволяет внедрять в модели машинного обучения так называемые скрытые закладки. Как правило, закладки в ПО дают злоумышленникам доступ к системе для кражи данных или проведения саботажа.

Но в случае с техникой ShadowLogic дело обстоит иначе: закладка внедряется на уровне логики модели ИИ — так называемого вычислительного графа, без добавления какого-либо кода. Вычислительный граф — это схема работы модели ИИ, определяющая как последовательность операций, так и процесс обработки данных. Внедренная на уровне графа закладка позволяет проводить атаки на модель и контролировать итоги ее работы.

Хакер

Фото: ИЗВЕСТИЯ/Сергей Лантюхов

Для активации такой угрозы и проведения атаки на нейросеть киберпреступникам достаточно лишь передать ей специальное триггерное сообщение. Техника ShadowLogic опасна тем, что ей подвержены модели ИИ любого типа, от классификаторов изображений до систем обработки текста. Обнаружить эту угрозу заранее сложно, причем она сохраняется даже при дополнительном обучении модели, что лишь усиливает ее опасность.

По мнению специалистов HiddenLayer, техника ShadowLogic открывает киберпреступникам возможности для атак на цифровые системы, использующие модели ИИ с графовой структурой, в самых разных сферах — от медицины до финансов.

 

Механизмы внедрения

Как говорит в беседе с «Известиями» руководитель R&D-лаборатории Центра технологий кибербезопасности ГК «Солар» Максим Бузинов, скрытые закладки в моделях ИИ прежде всего опасны тем, что их почти невозможно обнаружить классическими сканерами угроз, так как по виду такие инъекции — часть алгоритма машинного обучения.

— В результате обнаружить такую закладку может лишь архитектор ML-модели либо средство контроля версий и целостности ML, — рассказывает специалист. — Для внедрения закладки злоумышленники, в частности, могут использовать механизмы подсказок-инструкций для модели (promt), которые реализуют jailbreaking‑инъекции.

Хакер2

Фото: ИЗВЕСТИЯ/Анна Селина

По словам Максима Бузинова, такие инъекции могут «сбивать с толку» модель, а также применяться для получения чувствительной информации. И если выходной результат модели ИИ не проверяется на безопасность, злоумышленник может «подложить» свой специальный promt. В результате модель сгенерирует вредоносный код, который опасен потерей или искажением данных.

Системный аналитик R-Vision Никита Савилов отмечает, что внедрять скрытые закладки злоумышленники могут на этапе обучения модели, изменяя параметры обучения или добавляя в обучающую выборку специально подготовленные данные. Эти данные — вредоносные образцы, которые служат триггерами для активации закладки.

— Например, разработчик с недобрыми намерениями может незаметно внести в набор данных изображения, которые впоследствии будут вызывать нежелательное поведение модели, — поясняет эксперт.

Офис

Фото: ИЗВЕСТИЯ/Эдуард Корниенко

Максим Бузинов подчеркивает, что в команде разработчиков моделей ИИ такие закладки сразу обнаружат, если выстроен процесс проверки датасетов или открытого исходного кода. Однако на стороне заказчика или пользователя модели ИИ реализовать такую угрозу проще, особенно если модель не обновляется и не поддерживается.

Какие бывают триггеры

Скрытая закладка, заложенная злоумышленниками в модель ИИ, остается неактивной до тех пор, пока модель не столкнется с определенным триггером, который может быть незаметен для пользователя. Он может меняться в зависимости от типа данных, с которыми работает модель. Например, возможный триггер в системе распознавания речи — это определенная фраза или интонация, после которой модель начнет предоставлять ложную информацию или передавать данные злоумышленнику, объясняет Никита Савилов.

— Активация также возможна с помощью специально сформированного сообщения, — дополняет руководитель группы защиты инфраструктурных IT-решений компании «Газинформсервис» Сергей Полунин. — Можно попросить сделать ИИ определенное действие или ответить на какой-то вопрос, а результатом будет переключение в другой режим работы.

Работник

Фото: ИЗВЕСТИЯ/Дмитрий Коротаев

По словам замруководителя направления Т1 ИИ (Холдинг Т1) Евгения Григорьева, в случае моделей для обработки изображений триггером могут служить пиксели определенного цвета. В целом, чем более специфический триггер выберут злоумышленники, тем сложнее будет обнаружить уязвимость во время проверки модели.

После активации скрытые закладки могут быть использованы для различных целей, в том числе кражи данных, саботажа и несанкционированного доступа, отмечает Никита Савилов. При этом особенно опасны они в критически важных секторах, таких как безопасность, финансовые системы, здравоохранение и автономный транспорт. Например, исследование Вашингтонского университета в области компьютерного зрения показало, что скрытые закладки могут представлять угрозу для автономного транспорта.

— Ученые продемонстрировали, что на дорожные знаки можно наносить малозаметные для человеческого глаза паттерны, которые вызывают сбои в работе системы распознавания автономного транспорта, — объясняет собеседник «Известий». — В результате автомобиль может ошибочно распознать знак ограничения скорости или вовсе не заметить его, что способно привести к аварийным ситуациям.

Дорожный знак

Фото: ИЗВЕСТИЯ/Дмитрий Коротаев

Этот пример подчеркивает уязвимость систем ИИ в критически важных приложениях, когда они не имеют эффективной защиты от скрытых закладок.

 

Защитные приемы

Опасность скрытых закладок в том, что они могут быть интегрированы в любую модель машинного обучения, говорит Евгений Григорьев. Сегодня самые разные отрасли проходят через цифровую трансформацию и активно внедряют нейросетевые алгоритмы, из-за чего перечень потенциально уязвимых сфер оказывается весьма обширным.

— К примеру, в кибербезопасности закладки могут служить для обхода систем защиты и создания скрытых уязвимостей, в финансах — для искажения прогнозов и отчетности, а в здравоохранении — для подмены диагнозов и анализов, — поясняет собеседник «Известий».

Поэтому вопрос защиты от скрытых закладок в моделях ИИ сегодня стоит весьма остро, считают эксперты. Для борьбы с этой угрозой руководитель группы исследований и разработки технологий машинного обучения в «Лаборатории Касперского» Владислав Тушканов рекомендует проверять граф вычислений модели при ее загрузке.

Касперский

Фото: ИЗВЕСТИЯ/Дмитрий Коротаев

В целом, по словам эксперта, для защиты от атак на уровне модели необходимо следовать практикам безопасной разработки систем машинного обучения (MLSecOps), получать модели только из доверенных источников, вести мониторинг моделей после запуска в эксплуатацию и защищать свою ML-инфраструктуру с помощью современных решений.

 Внедряйте автоматизацию: использование инструментов вроде MLflow и ART помогает систематизировать процессы и снизить риск человеческих ошибок, — советует Максим Бузинов. — Кроме того, проводите регулярные аудиты — проверка данных, моделей и процессов позволяет своевременно обнаружить и устранить уязвимости.

По словам специалиста, также важно применять методы adversarial training и ансамбли моделей, повышающие устойчивость к атакам. А разграничение прав и мониторинг активности с помощью IdM и PAM-систем помогают предотвратить инсайдерские угрозы и утечки данных.

Офис

Фото: ИЗВЕСТИЯ/Эдуард Корниенко

— Важно уделять внимание аудиту цепочки поставок: проверять ПО и вендоров, а также источники данных для обучения модели, — заключает Евгений Григорьев. — А организациям, относящимся к объектам критической инфраструктуры, следует доверять только отечественным компаниям-партнерам.

Партнеры