Blog

Opracowania zespołu inżynierskiego Vigil Guard: decyzje architektoniczne, metodyka kalibracji, analiza wektorów ataku oraz tryby awarii, na które trafiamy uruchamiając AIDR (AI Detection & Response) w produkcji.

Opublikowano 15 czerwca 2026· autor: Tomasz Bartel

Vigil Guard 1.8.x na dziewięciu publicznych benchmarkach prompt injection

Kończymy testy 1.8.x. Sprawdziliśmy ją na dziewięciu publicznych, zewnętrznych benchmarkach prompt injection, bez ani jednego wewnętrznego zbioru. Na atakach pośrednich i RAG recall wynosi od 98,9% do 99,2%, na JailbreakBench 100%, przy 0,0% false positive na deepset i 2,6% over-defense na NotInject. Każdy wynik da się odtworzyć z podlinkowanego źródła.

Bezpieczeństwo LLMPrompt InjectionBenchmarkiBezpieczeństwo RAGAIDR

Czytaj więcej →

Opublikowano 3 maja 2026· autor: Tomasz Bartel

vge-promptguard-v2h: koniec ery dotrenowania w modelach detekcyjnych

Po sześciu tygodniach prób ze wszystkimi standardowymi technikami przeciwdziałania catastrophic forgetting porzuciliśmy dotrenowanie naszego produkcyjnego detektora prompt injection. v2h to dwa wyspecjalizowane modele i deterministyczny router. Zero regresji na starej dystrybucji, pełna obsługa nowej.

Bezpieczeństwo LLMPrompt InjectionGuardrailsCatastrophic ForgettingAIDR

Czytaj więcej →

Opublikowano 29 kwietnia 2026· autor: Tomasz Bartel

Analiza dryftu semantycznego jako mechanizm wspierający bezpieczeństwo systemów LLM w kontekście prompt injection

Spojrzenie na to, jak analiza dryftu semantycznego uzupełnia klasyczne metody detekcji prompt injection w systemach LLM. Gdy odpowiedź modelu odbiega od zdefiniowanej roli i ograniczeń, samo odchylenie staje się sygnałem bezpieczeństwa.

Bezpieczeństwo LLMPrompt InjectionDryft semantycznyBezpieczeństwo agentówAIDR

Czytaj więcej →