Blog

Opracowania zespołu inżynierskiego Vigil Guard: decyzje architektoniczne, metodyka kalibracji, analiza wektorów ataku oraz tryby awarii, na które trafiamy uruchamiając AIDR (AI Detection & Response) w produkcji.

· autor: Tomasz Bartel

vge-promptguard-v2h: koniec ery dotrenowania w modelach detekcyjnych

Po sześciu tygodniach prób ze wszystkimi standardowymi technikami przeciwdziałania catastrophic forgetting porzuciliśmy dotrenowanie naszego produkcyjnego detektora prompt injection. v2h to dwa wyspecjalizowane modele i deterministyczny router. Zero regresji na starej dystrybucji, pełna obsługa nowej.

Bezpieczeństwo LLMPrompt InjectionGuardrailsCatastrophic ForgettingAIDR
Czytaj więcej
· autor: Tomasz Bartel

Analiza dryftu semantycznego jako mechanizm wspierający bezpieczeństwo systemów LLM w kontekście prompt injection

Spojrzenie na to, jak analiza dryftu semantycznego uzupełnia klasyczne metody detekcji prompt injection w systemach LLM. Gdy odpowiedź modelu odbiega od zdefiniowanej roli i ograniczeń, samo odchylenie staje się sygnałem bezpieczeństwa.

Bezpieczeństwo LLMPrompt InjectionDryft semantycznyBezpieczeństwo agentówAIDR
Czytaj więcej