Vår arkitektur är byggd för att förstå rörelser — inte för att spara dem
Preventais systemarkitektur är resultatet av flera års forskning och iteration, där varje del av infrastrukturen har vuxit fram ur empiriska insikter och vetenskaplig metodik.
Från början stod vi inför en utmaning som präglar hela datorseende-fältet: att översätta mänskliga rörelser till meningsfull förståelse, utan att offra integritet eller säkerhet.
Vi började med att undersöka hur AI uppfattar tid, rum och orsakssamband i video. Genom den processen har vi byggt en arkitektur som inte bara analyserar bildrutor, utan förstår sekvenser, intentioner och sammanhang — helt lokalt, utan att lagra eller dela någon videodata.
De första försöken byggde på enkla konvolutionsmodeller som behandlade hela videor som statiska block. Resultatet blev begränsat: systemet kunde se rörelse, men inte förstå motiv eller relationer.
Den lärdomen formade grunden för vår metodologi.
I stället för att förlita oss på en enda, tung modell valde vi att bygga en pipeline av specialiserade komponenter, där varje modul fokuserar på ett definierat steg i förståelsekedjan: upptäckt, perception, tolkning och beslutsstöd.
Varje modul tränas separat, optimeras för sitt syfte och interagerar med övriga genom väldefinierade gränssnitt. På så sätt minskar vi risken för felaktiga generaliseringar och ökar systemets spårbarhet.
Vi har helt enkelt byggt bort beroendet av "en modell som kan allt", och ersatt det med ett system där precision kommer genom samarbete mellan många.
Rörelse möter mening
Kärnan i Preventais arkitektur är ett hybridnätverk som integrerar rörelseförståelse och semantisk tolkning. Det är en tvådelad struktur: en komponent som förstår vad som finns i scenen, och en annan som förstår hur det rör sig.
Förstår vad som finns i scenen — objekt, personer, relationer
Förstår hur det rör sig — tempo, riktning, intentioner
De två flödena — det rumsliga och det tidsliga — bearbetas parallellt, extraherar olika typer av features och sammanförs sedan i ett fusion-lager där rörelse och betydelse kombineras till en gemensam representation.
Det som gör vår lösning unik är att den semantiska och temporala förståelsen växelverkar.
Rörelsen påverkar hur scenen tolkas, och scenens kontext påverkar hur rörelsen förstås. Denna ömsesidighet är avgörande för att korrekt kunna uppfatta mänskligt beteende — och för att skilja mellan normala och avvikande handlingar.
Från kamera till kontext
Vårt system är utformat som en hierarkisk pipeline för realtidsvideo. Den är byggd för att minimera beräkning, maximera tolkningsdjup och skydda individens integritet.
Systemet tar emot RTSP-flöden direkt från butikens kameror. Istället för att processa allt material används en lättviktsdetektor för att identifiera relevanta händelser, exempelvis interaktioner mellan personer och hyllor.
Endast dessa sekvenser skickas vidare i kedjan, vilket minimerar belastning och datamängd.
De utvalda sekvenserna bearbetas av en rörelseanalysmodul och en visuell semantikmodul i parallella flöden. Dessa extraherar respektive rörelse- och objektspecifika egenskaper.
De två dataströmmarna förenas i ett centralt fusion-lager, där informationen viktas dynamiskt beroende på kontext. Här avgörs hur mycket rörelse- respektive semantikkomponenterna ska bidra i tolkningen.
Det sammanslagna resultatet skickas till ett beslutslager som genererar både en prediktion och en förklarande textbeskrivning. Det säkerställer att varje beslut kan granskas och förstås i efterhand.
Allt sker inom den lokala infrastrukturen, utan att några bilder, videor eller metadata lämnar platsen.
Samförstånd istället för sannolikhet
Ett viktigt steg i utvecklingen var insikten att ingen enskild modell alltid har rätt. Därför övergick vi till en multi-agent-arkitektur, där flera modeller samverkar i en strukturerad beslutsprocess.
När en händelse uppfattas skickas informationen genom dessa agenter, som analyserar den ur sina respektive perspektiv. Resultaten sammanställs sedan i en logisk beslutsmodul som väger evidensen mellan dem.
Analyserar temporala mönster
Förstår scenens sammanhang
Genererar semantiska beskrivningar
Väger evidens och beslutar
Det är alltså inte sannolikhet som avgör, utan konsensus mellan systemkomponenter.
Detta har kraftigt reducerat felaktiga larm, ökat transparensen och gjort att beslut nu kan granskas som en kedja av motiverade observationer — inte som en svart låda.
För att möta kraven på realtidsprestanda och dataskydd har arkitekturen byggts för lokal beräkning och modulär skalbarhet.
All bearbetning lokalt
Låg latens, hög prestanda
Data lämnar aldrig platsen
Videoströmmar hanteras direkt på GPU-accelererad hårdvara, där kodexoptimeringar och modern videokomprimering minskar latenserna dramatiskt.
Vår edge-baserade design innebär att varje butik eller anläggning är en självständig nod, där all databehandling sker internt.
Detta skapar digital suveränitet — data lämnar aldrig platsen, och systemet förblir operativt även utan molnuppkoppling.
Varje beslut i vår utveckling har grundats i principen privacy by design. Det betyder att integritet inte är något som läggs till i efterhand, utan något som styr hela den tekniska strukturen.
Ingen datalagring
Ingen överföring
Ingen profilering
Vi utvecklar, testar och validerar våra system i kontrollerade miljöer, inklusive vår egen fysiska testbutik. Där skapar vi syntetisk och annoterad data som gör det möjligt att förbättra precisionen utan att använda kunddata.
Annoteringarna görs med hjälp av AI-assisterade verktyg och mänsklig granskning i en human-in-the-loop-process, vilket säkerställer att systemet tränas på rättvisa, balanserade och etiskt framtagna datamängder.
Nästa steg i vår utveckling är att gå från pipeline-baserad förståelse till sekventiell, resonemangsdriven analys. Vi arbetar mot en arkitektur där varje modul inte bara bearbetar information, utan förstår sitt syfte i kontexten av helheten.
Ett system som inte bara analyserar vad som sker, utan förstår varför det sker, i relation till omgivningens dynamik
Det är den naturliga fortsättningen på vår filosofi: att kombinera datorseende, språkförståelse och etik till en helhet där teknik förstärker människans förmåga – inte ersätter den.