БезопасностьИИ

Всего 250 документов могут отравить любую модель ИИ

Революционное открытие в области безопасности искусственного интеллекта

Исследователи из Anthropic, Института безопасности ИИ Великобритании и Института Алана Тьюринга обнаружили, что всего 250 вредоносных документов достаточно для успешного внедрения бэкдора в языковые модели от 600 миллионов до 13 миллиардов параметров. Это открытие полностью переворачивает существующие представления о безопасности искусственного интеллекта.

Что такое отравление данных?

Атаки с отравлением данных — это когда злоумышленники намеренно внедряют вредоносные или поврежденные данные в обучающий набор данных модели машинного обучения, чтобы манипулировать поведением модели. Атакующие могут использовать отравленные данные для внедрения бэкдоров, заставляющих модель вести себя злонамеренно — например, предлагать вредоносный код — когда модель встречает триггерную фразу.

Ключевые результаты исследования

Фиксированное число вместо процента

Исследование бросает вызов распространенному предположению о том, что атакующим необходимо контролировать определенный процент обучающих данных. Вместо этого им может потребоваться лишь небольшое фиксированное количество документов.

Критические цифры:

  • 250 вредоносных документов — магическое число для успешной атаки
  • 0,00016% — процент от общего датасета для модели с 13 миллиардами параметров
  • 420 000 токенов — объем данных в 250 документах
  • 100% успех — показатель эффективности при использовании 250+ документов

Размер модели не имеет значения

Хотя модель с 13 миллиардами параметров обучается на более чем в 20 раз большем объеме данных, чем модель на 600 миллионов параметров, обе могут быть скомпрометированы одним и тем же небольшим количеством отравленных документов. Это означает, что атака масштабируется независимо от размера модели.

Как работает атака?

Исследователи создавали отравленные документы, начинающиеся с легитимного текста из общедоступных источников, затем добавляли триггерную фразу <SUDO>, после которой следовало от 400 до 900 токенов бессмысленного текста, сэмплированного из словаря модели.

Протестированные модели включали:

  • Pythia (600M параметров)
  • Различные размеры до 13B параметров
  • Llama 3.1
  • GPT-3.5 Turbo

Дополнительная статистика и контекст

Масштаб проблемы

Современные модели ИИ:

  • GPT-4 содержит ~1,76 триллиона параметров (по оценкам)
  • Claude 3 Opus содержит сотни миллиардов параметров
  • Средняя современная модель обучается на триллионах токенов

Стоимость обучения:

  • Обучение GPT-4 оценивается в $100+ миллионов
  • Переобучение модели после обнаружения отравления практически невозможно
  • Обнаружение 250 вредоносных документов в датасете из миллиардов — задача, сравнимая с поиском иголки в стоге сена

Практические последствия

Особенно актуально это для компаний, создающих специализированные модели. Современная тенденция в разработке ИИ — брать небольшие модели (часто 13 миллиардов параметров или меньше) и обучать их на собственных документах для создания специализированных моделей. Если атакующий сможет отравить эти обучающие документы, могут возникнуть всевозможные проблемы.

Глобальный контекст безопасности ИИ

Статистика угроз в 2025 году:

  • 80% программ-вымогателей используют элементы ИИ
  • 97% точность обнаружения вредоносных уязвимостей чипов с помощью ИИ
  • Агентские ИИ могут быть скомпрометированы атаками нулевого клика

Аналогия масштаба: Исследователи провели аналогию в своей работе: это как влить чашку чернил в водохранилище.

Почему это опасно?

Эксперт по безопасности отмечает: “Проблема асимметрии фундаментальна: обучение легко, разобучение невозможно. Мы не можем определить, какие 250 документов вызвали отравление, или устранить их влияние без полного переобучения.”

Потенциальные риски:

  1. Утечка конфиденциальных данных — через скрытые бэкдоры
  2. Генерация вредоносного кода — при определенных триггерах
  3. Обход систем безопасности — встроенные уязвимости
  4. Деградация производительности — систематическое снижение качества ответов

Защита от атак

Диана Келли, директор по информационной безопасности Noma Security, утверждает, что для защиты от отравления данных необходимо сосредоточиться на улучшении защиты данных в жизненном цикле ИИ, начиная с контроля доступа к источникам данных, моделям и санитарной обработке данных. “Ограничение того, кто и что может передавать данные в конвейеры, проверка происхождения и постоянная валидация того, что данные остаются чистыми — ключевые элементы.”

Рекомендации по защите:

  1. Отслеживание происхождения данных
  2. Аутентификация источников
  3. Автоматическое сканирование на наличие вредоносных данных
  4. Непрерывная валидация качества данных
  5. Многоуровневая проверка перед включением в обучающий набор

Ограничения исследования

Исследование фокусировалось на узком типе бэкдора (генерация бессмысленного текста), который вряд ли представляет значительные риски в передовых моделях. Тем не менее, результаты публикуются, чтобы показать, что атаки с отравлением данных могут быть более практичными, чем считалось, и стимулировать дальнейшие исследования в области защиты.

Открытые вопросы:

  • Будет ли тот же паттерн действовать для более крупных “пограничных” моделей?
  • Работает ли фиксированное число для более опасных типов бэкдоров?
  • Можно ли разработать эффективные методы обнаружения отравленных данных?

Заключение

Это исследование является тревожным сигналом для индустрии ИИ. В то время как компании стремительно развертывают всё более мощные языковые модели, вопросы безопасности обучающих данных становятся критически важными.

Anthropic признает, что публикация этих результатов несет потенциальные риски, но считает, что преимущества открытого обсуждения перевешивают опасения. Атаки с отравлением данных в некоторой степени благоприятствуют защите: поскольку атакующий выбирает отравленные образцы до того, как защитник может адаптивно проверить свой датасет, привлечение внимания к практичности атак может помочь мотивировать защитников к необходимым действиям.


Источники: Anthropic Research, Dark Reading, UK AI Security Institute, The Alan Turing Institute, SecurityLab.Pro

Дата исследования: Октябрь 2025

Протестированные модели: Pythia, Llama 3.1, GPT-3.5 Turbo (от 600M до 13B параметров)