Powrót do aktualności

VigilGuard Enterprise v1.6.3: obserwowalność agentów i kontrola scope'u

Wydanie dla świata, w którym agenty są już w produkcji

Agenty LLM przestały być demonstracją technologiczną. Coraz więcej organizacji wdraża je w środowiskach produkcyjnych do realnych zadań, takich jak code review, analiza danych, obsługa klienta czy wsparcie działu HR. Zmienia się również charakter ryzyka. W klasycznym modelu chatowym bezpieczeństwo sprowadzało się do analizy pojedynczej wiadomości użytkownika. W świecie agentów decyzja modelu powstaje w znacznie szerszym otoczeniu: historii konwersacji, poleceniu systemowym, wynikach wywołań narzędzi oraz dokumentach pobranych przez RAG. Każdy z tych kanałów może stać się wektorem ataku lub źródłem nieprzewidzianego zachowania.

Wersja 1.6.3 jest bezpośrednią odpowiedzią na tę zmianę. Vigil Guard Enterprise przesuwa środek ciężkości z pojedynczego promptu na pełny kontekst działania agenta, wprowadzając cztery uzupełniające się warstwy obserwowalności i detekcji.

Agent Context Logging: pełna widoczność dla analizy poincydentalnej

Agent Context Logging rejestruje pełny kontekst towarzyszący każdej decyzji detekcji. Po włączeniu funkcji każde zdarzenie zawiera prompt użytkownika, polecenie systemowe, historię konwersacji, odpowiedzi narzędzi oraz informację o tym, jakie dokumenty zostały pobrane przez RAG. W interfejsie pojawia się dedykowana karta „Agent Context”, która udostępnia te dane analitykom w przejrzystej formie.

W wersji 1.6.3 klasyfikator pozostaje skoncentrowany na analizie promptu. Pozostałe elementy kontekstu są rejestrowane wyłącznie w celach audytowych i na potrzeby analizy poincydentalnej. Obecne wydanie stanowi warstwę fundamentową. Kolejne wersje będą sukcesywnie rozszerzać zakres aktywnej analizy o poszczególne komponenty, rozpoczynając od odpowiedzi narzędzi.

Scope Drift Detection: agent pozostaje przy swojej misji

Agent skonfigurowany jako asystent code review otrzymuje zapytanie o przepis kulinarny. Formalnie nie jest to atak, dlatego klasyczny detektor prompt injection przepuści takie zdarzenie. W rzeczywistości agent właśnie opuścił obszar swojej misji. W skali tysięcy zapytań konsekwencje są wymierne: nadmiarowe koszty tokenów, spadek jakości odpowiedzi w obszarze docelowym, a w niektórych przypadkach ryzyko ujawnienia informacji, do których agent nie powinien mieć dostępu.

Scope Drift Detection wprowadza nową, niezależną warstwę detekcji, która ocenia każde zapytanie w relacji do zdefiniowanej misji agenta. Rozpoznaje trzy poziomy zgodności: w granicach misji, blisko granicy oraz wyraźnie poza misją. Dla każdego poziomu administrator definiuje konkretną akcję: zezwól lub zablokuj. Definicja misji jest ustawiana osobno dla każdego zestawu reguł i pozostaje zaszyfrowana w stanie spoczynku, co pozwala bezpiecznie opisać nawet wrażliwe scenariusze biznesowe.

Skuteczność modelu na wewnętrznym zestawie testów regresyjnych: 96,7% dla języka polskiego, 83,3% dla języka angielskiego.

llm-guard Dual-Pass: żaden ogon długiego promptu nie zostaje poza zasięgiem

Klasyfikator injection analizuje prompt w ograniczonym oknie. W środowiskach agentowych prompty regularnie przekraczają ten limit, ponieważ do pytania użytkownika doklejane są polecenie systemowe, historia konwersacji, wyniki narzędzi oraz dokumenty pobrane z bazy wiedzy. Dotychczas nadmiarowa końcowa część była po prostu pomijana, przez co atak osadzony w końcu kontekstu mógł przechodzić niezauważony.

Dual-Pass analizuje długie prompty w dwóch przejściach, obejmując zarówno ich początek, jak i koniec. Decyzja opiera się na wyższej z dwóch wartości prawdopodobieństwa ataku. W praktyce oznacza to, że żadna część długiego kontekstu nie pozostaje poza zasięgiem klasyfikatora, niezależnie od tego, w którym miejscu został osadzony atak. Funkcja działa transparentnie po aktualizacji, bez zmian w integracji.

vge-promptguard-v1g: klasyfikator rozumiejący kod i wyniki narzędzi

Większość dostępnych na rynku klasyfikatorów prompt injection została wytrenowana na promptach konwersacyjnych, czyli naturalnym języku, socjotechnice oraz jailbreakach. W pipeline'ach agentowych dominuje jednak zupełnie inny typ wejścia: fragmenty kodu, odpowiedzi narzędzi w formacie JSON, dane strukturalne, logi, dokumenty techniczne. Generyczny klasyfikator często nie potrafi odróżnić ataku od prawidłowego kontekstu operacyjnego.

vge-promptguard-v1g to dedykowany klasyfikator injection zaprojektowany dla środowisk agentowych. Został przygotowany nie tylko na bazie klasycznych promptów, lecz również fragmentów kodu, odpowiedzi narzędzi oraz złożonych struktur danych typowych dla pracy agentów. W rezultacie model wykrywa więcej ataków osadzonych w blokach kodu, odpowiedziach narzędzi i strukturach typu JSON czy XML, a jednocześnie generuje mniej fałszywych alertów na nieszkodliwych fragmentach kodu i danych strukturalnych.

Model jest wbudowany w obraz llm-guard i staje się nowym, domyślnym klasyfikatorem injection po aktualizacji. Dodatkowa konfiguracja nie jest wymagana.