Powrót do aktualności

VGE PromptGuard v1g: open-weight model detekcji prompt injection

Czym jest VGE PromptGuard v1g

VGE PromptGuard v1g to silnik detekcji działający wewnątrz Vigil Guard Enterprise. Klasyfikuje dane wejściowe jako SAFE lub INJECTION w czasie rzeczywistym, chroniąc aplikacje LLM przed bezpośrednimi atakami, jailbreak'ami i pośrednimi iniekcjami ukrytymi w kodzie, wynikach narzędzi i treściach dostarczanych przez użytkowników.

Model oparty jest na architekturze DeBERTa v3 Small: 44 miliony parametrów, 6 warstw, 768 wymiarów ukrytych. Wystarczająco mały, by uruchomić inferencję na CPU w czasie rzeczywistym. Wystarczająco precyzyjny, by przewyższać modele o rząd wielkości większe na benchmarkach prompt injection.

Udostępniamy go na Hugging Face na licencji CC BY-NC 4.0 do celów badawczych i niekomercyjnych. Wersja produkcyjna jest dostarczana jako część Vigil Guard Enterprise z pełnym pipeline'em preprocessingu, optymalizacją ONNX i zarządzanym wdrożeniem.

VGE PromptGuard v1g: open-weight model detekcji prompt injection

Zbudowany dla agentycznych systemów AI

Większość detektorów prompt injection analizuje wiadomości użytkownika w izolacji. To działa, gdy użytkownik pisze bezpośrednio do chatbota. Przestaje działać, gdy agenci AI zaczynają wywoływać zewnętrzne narzędzia, przetwarzać odpowiedzi API i realizować wieloetapowe workflow.

VGE PromptGuard v1g był trenowany na kodzie źródłowym od fazy Masked Language Model. Rozumie strukturę kodu, formaty wyników narzędzi i wzorce zwracanych wartości funkcji. Model zawiera 3-warstwowy pipeline preprocessingu, który wyodrębnia payloady po znacznikach APIResults, ToolOutput i FunctionReturn, wyłapując iniekcje ukryte głęboko w agentycznych workflow.

Na benchmarku LLM-PIEval (750 próbek scenariuszy agentycznych ataków injection) VGE PromptGuard v1g osiąga 97.5% wykrywalności z pipeline'em ekstrakcji payloadów.

Wydajność vs rozmiar

Testowane na zbiorze walidacyjnym Protect AI (3 227 próbek w 7 splitach). Ten sam zbiór testowy, to samo mapowanie etykiet, niezależnie odtwarzalne. VGE PromptGuard v1g dostarcza 2x wyższe F1 ogólne, utrzymując wskaźnik fałszywych alarmów poniżej 1% na produkcyjnym ruchu.

Różnica w FPR ma znaczenie w praktyce. Model, który oznacza 42.5% prawidłowych promptów jako ataki, jest nieużywalny w produkcji. Każdy fałszywy alarm podważa zaufanie i generuje szum operacyjny. Przy 0.0% FPR na benchmarku gold i poniżej 2.2% na ToxicChat, VGE PromptGuard v1g działa bez zmęczenia alertami.

MetrykaVGE PromptGuard v1gProtect AI v2 (bazowy)
F1 ogólne0.9340.452
F1 bezpośrednia iniekcja0.981
INJ Recall (bezpośredni)96.7%
FPR (prompty bezpieczne)0.0%42.5%
Detekcja agentyczna97.5%
Parametry44M86M

Obsługa języków i kodu

Podstawowe wsparcie językowe obejmuje angielski i polski, oba trenowane na natywnych korpusach, nie tłumaczeniach maszynowych. Polskie prompty biznesowe, scenariusze użycia narzędzi i wymiany konwersacyjne są klasyfikowane z niemal zerową nadmiarową obroną (2.5% FPR na polskim benchmarku).

Model radzi sobie również z klasyfikacją w kontekście kodu. Trenowany na kodzie źródłowym podczas fazy adaptacji domenowej MLM, wykrywa prompt injection ukryte w snippetach kodu, definicjach funkcji i komentarzach inline. Na benchmarku BIPIA code VGE PromptGuard v1g osiąga 100% recall (model bazowy uzyskuje 0%).

Rozszerzone wsparcie dla 5+ dodatkowych języków jest dostępne przez warstwę moderacji treści platformy VGE.

Jak go użyć

Model jest dostępny na huggingface.co/VigilGuard/vigil-llm-guard. Obsługuje inferencję PyTorch, ONNX Runtime do zoptymalizowanego wdrożenia na CPU oraz pełny pipeline preprocessingu do użytku produkcyjnego z długimi promptami i kontekstami agentycznymi.

W wdrożeniach produkcyjnych VGE PromptGuard v1g działa wewnątrz Vigil Guard Enterprise z automatycznym skalowaniem, integracją z SIEM i zarządzanym egzekwowaniem polityk. Zainstaluj VGE jedną komendą, a model zostanie wdrożony, skonfigurowany i monitorowany automatycznie.