LLAMATOR
LLAMATOR — Python-фреймворк для автоматического тестирования LLM-систем.
Бизнес-решения, основанные на больших языковых моделях (LLM), могут быть уязвимы
к промпт-атакам и манипуляциям, что может привести к утечкам информации, искажению
поведения системы и удару по бизнес-процессам.
Ключевые последствия таких атак для приложения и бизнеса — утечка чувствительных
данных, введение пользователей в заблуждение, побочные эффекты на смежные системы,
неограниченное потребление ресурсов. Поэтому нужна системная проверка безопасности
и устойчивости LLM-решений на этапе разработки и в продакшне.
Для инструментальной проверки этих угроз мы разработали LLAMATOR — фреймворк
для автоматического тестирования LLM-систем с привязкой к классам OWASP.
LLAMATOR позволяет тестировать как сами модели, так и полноценно системы,
основанные на LLM (приложения, агенты, пайплайны и интеграции). Он воспроизводит
критичные сценарии, запускает атаки, оценивает ответы и фиксирует метрики.
Архитектура фреймворка включает три сущности:
Клиенты — способы взаимодействия с LLM: тестируемое приложение; модели,
генерирующие атаки, и модели, оценивающие ответы.
Атаки — обширный каталог популярных сценариев с возможностью добавления собственных.
Провайдер атак — пайплайн, который запускает выбранные атаки для заданных
клиентов и по завершении агрегирует результаты. По итогам тестирования формируются
два общих отчёта в форматах DOCX и XLSX, а также CSV-датасеты с записями по каждой
атаке для дальнейшего анализа и интеграции в процесс улучшений.
Сайт проекта: https://llamator-core.github.io/llamator