Уязвимость vLLM
БезопасностьИИ

Критическая уязвимость vLLM позволяет выполнять удаленный код в AI-инфраструктуре

Организации, развертывающие инфраструктуру искусственного интеллекта, столкнулись с серьезной угрозой после обнаружения критической уязвимости vLLM. Ошибка в обработке памяти открывает возможность удалённого выполнения кода через специально сформированные API-запросы. Уязвимость затрагивает одну из самых популярных платформ для обслуживания больших языковых моделей и требует немедленного внимания команд безопасности.


Что представляет собой уязвимость vLLM

Проблема затрагивает версии vLLM 0.10.2 и выше, то есть большинство современных развёртываний, используемых в промышленной среде. По своей природе это уязвимость повреждения памяти, возникающая из-за некорректной обработки операций десериализации тензоров через конечную точку Completions API.

Исследователи из AXION Security Research Team обнаружили брешь и передали подробности разработчикам vLLM. Уязвимость находится в файле entrypoints/renderer.py, строка 148: там система обрабатывает переданные пользователем тензорные встраивания без достаточных проверок безопасности.

Особенно тревожно то, что для эксплуатации не требуются привилегии. В зависимости от конфигурации API, уязвимость могут использовать как аутентифицированные, так и неаутентифицированные пользователи.


Технические детали: уязвимость повреждения памяти

Эксплуатация начинается с обработки встраиваний промптов через Completions API. Платформа десериализует тензоры, используя функцию torch.load() без достаточной валидации данных.

Ситуацию усугубило изменение в PyTorch 2.8.0, где по умолчанию были отключены проверки целостности разреженных тензоров — что непреднамеренно создало новый вектор атаки.

Злоумышленник может подготовить специально созданный тензор, обходящий внутренние проверки. При дальнейшей операции to_dense() возникает запись «за пределы» выделенной памяти. Это открывает возможность выполнения произвольного кода внутри процесса сервера.


Удалённое выполнение кода: почему это критично

Переход от повреждения памяти к удалённому выполнению кода — самый опасный аспект уязвимости. Получив возможность записи за границы памяти, злоумышленник может изменить критические области памяти, включая:

  • структуру исполняемого кода
  • указатели на функции
  • управляющие блоки процесса

Правильно сформированная вредоносная нагрузка может дать атакующему полный контроль над сервером vLLM. Это включает возможность:

  • красть обучающие датасеты и проприетарные ML-модели
  • осуществлять латеральное перемещение по сети
  • устанавливать бэкдоры и разворачивать дополнительное вредоносное ПО
  • подменять выводы моделей для дезинформационных атак
  • похищать данные, проходящие через AI-систему

Completions API делает эксплуатацию особенно простой — достаточно иметь доступ к API и отправить вредоносное встраивание.


Какие организации находятся под угрозой

Риски распространяются на широкий спектр сценариев:

  • производственные AI-развёртывания
  • облачные среда и мультитенантные решения
  • внутренние корпоративные LLM-сервисы
  • исследовательские институты
  • AI-провайдеры и SaaS-платформы

Особенно опасны общие инфраструктуры, где несколько клиентов используют один сервер — успешная атака может скомпрометировать всех арендаторов.


Неотложные меры: что делать прямо сейчас

Разработчики vLLM выпустили патч, устраняющий уязвимость (pull request #27204).
Обновление до исправленной версии — первоочередная задача.

Процедуры экстренного исправления

Командам безопасности следует:

  1. Запустить процесс срочного обновления во всех инстансах vLLM.
  2. Протестировать обновление в staging-среде.
  3. Мониторить систему после установки патча.

Несмотря на то что AI-системы часто критичны и их обновления сложны, тяжесть уязвимости полностью оправдывает ускоренное внедрение патча.

Временные меры смягчения

Если обновить систему немедленно невозможно:

  • ограничьте API-доступ только доверённым пользователям;
  • сегментируйте сеть и используйте IP-white-list;
  • внедрите предварительную валидацию входных данных;
  • временно отключите Completions API (если это допустимо для вашего кейса).

Построение устойчивой безопасности AI-инфраструктуры

Инцидент подчёркивает фундаментальную проблему: безопасность ML-инфраструктуры требует иных подходов по сравнению с традиционной кибербезопасностью.

Безопасная десериализация

Десериализация — один из главных источников уязвимостей.

Необходимы:

  • проверки размеров, типов и требований к памяти;
  • проверка источника данных (подписей);
  • запуск операций десериализации в песочнице.

Усиление безопасности API

API — первый рубеж обороны.

Важные меры:

  • rate limiting;
  • анализ аномалий;
  • строгая валидация всех параметров;
  • детализированный логинг для расследований.

Многоуровневая защита ML-систем

  • сегментация сети
  • принцип минимальных привилегий
  • RASP/мониторинг выполнения
  • детектирование попыток эксплуатации в реальном времени

Широкий контекст: почему ML-инфраструктура становится целью

Популярность LLM и их ценные модели неизбежно привлекают:

  • киберпреступников
  • промышленных конкурентов
  • государственные структуры

При этом существует разрыв между компетенциями команд данных и команд безопасности — что создаёт слепые зоны.

Необходима культура безопасности, ориентированная на AI:

  • обучение разработчиков ML безопасным практикам
  • формализованные процессы security-review
  • повышение уровня понимания ML-рисков у киберспециалистов

Извлечённые уроки

  1. Валидация входных данных — обязательна.
  2. Настройки по умолчанию критичны. Отключённые проверки в PyTorch — тому пример.
  3. Ответственное раскрытие уязвимостей — ключевой механизм защиты сообщества.
  4. Регулярные специализированные аудиты безопасности ML-инфраструктуры — необходимость.

Заключение

Уязвимость vLLM, позволяющая удалённое выполнение кода, — серьёзное напоминание: безопасность AI-инфраструктуры должна быть стратегическим приоритетом. Немедленное устранение уязвимости — только первый шаг. Организациям необходимо формировать устойчивую архитектуру безопасности, адаптированную под специфику машинного обучения.

Только компании, которые заранее выстраивают многоуровневую защиту, регулярно оценивают риски и создают культуру безопасности вокруг AI, смогут использовать мощь больших языковых моделей без разрушительных последствий от кибератак.