Preventai
HemTeknologiMetodologi & arkitektur

Metodologi & arkitektur

Vår arkitektur är byggd för att förstå rörelser — inte för att spara dem

Preventais systemarkitektur är resultatet av flera års forskning och iteration, där varje del av infrastrukturen har vuxit fram ur empiriska insikter och vetenskaplig metodik.

Från början stod vi inför en utmaning som präglar hela datorseende-fältet: att översätta mänskliga rörelser till meningsfull förståelse, utan att offra integritet eller säkerhet.

Vi började med att undersöka hur AI uppfattar tid, rum och orsakssamband i video. Genom den processen har vi byggt en arkitektur som inte bara analyserar bildrutor, utan förstår sekvenser, intentioner och sammanhang — helt lokalt, utan att lagra eller dela någon videodata.

Från monolitiska modeller till specialiserade system

Utmaningen

De första försöken byggde på enkla konvolutionsmodeller som behandlade hela videor som statiska block. Resultatet blev begränsat: systemet kunde se rörelse, men inte förstå motiv eller relationer.

Den lärdomen formade grunden för vår metodologi.

I stället för att förlita oss på en enda, tung modell valde vi att bygga en pipeline av specialiserade komponenter, där varje modul fokuserar på ett definierat steg i förståelsekedjan: upptäckt, perception, tolkning och beslutsstöd.

Varje modul tränas separat, optimeras för sitt syfte och interagerar med övriga genom väldefinierade gränssnitt. På så sätt minskar vi risken för felaktiga generaliseringar och ökar systemets spårbarhet.

Vi har helt enkelt byggt bort beroendet av "en modell som kan allt", och ersatt det med ett system där precision kommer genom samarbete mellan många.

Den hybrida arkitekturen

Rörelse möter mening

Kärnan i Preventais arkitektur är ett hybridnätverk som integrerar rörelseförståelse och semantisk tolkning. Det är en tvådelad struktur: en komponent som förstår vad som finns i scenen, och en annan som förstår hur det rör sig.

01

Rumsligt flöde

Förstår vad som finns i scenen — objekt, personer, relationer

02

Tidsligt flöde

Förstår hur det rör sig — tempo, riktning, intentioner

De två flödena — det rumsliga och det tidsliga — bearbetas parallellt, extraherar olika typer av features och sammanförs sedan i ett fusion-lager där rörelse och betydelse kombineras till en gemensam representation.

Det som gör vår lösning unik är att den semantiska och temporala förståelsen växelverkar.

Rörelsen påverkar hur scenen tolkas, och scenens kontext påverkar hur rörelsen förstås. Denna ömsesidighet är avgörande för att korrekt kunna uppfatta mänskligt beteende — och för att skilja mellan normala och avvikande handlingar.

Pipeline-design

Från kamera till kontext

Vårt system är utformat som en hierarkisk pipeline för realtidsvideo. Den är byggd för att minimera beräkning, maximera tolkningsdjup och skydda individens integritet.

01

Datainsamling och filtrering

Systemet tar emot RTSP-flöden direkt från butikens kameror. Istället för att processa allt material används en lättviktsdetektor för att identifiera relevanta händelser, exempelvis interaktioner mellan personer och hyllor.

Endast dessa sekvenser skickas vidare i kedjan, vilket minimerar belastning och datamängd.

02

Perceptuell analys

De utvalda sekvenserna bearbetas av en rörelseanalysmodul och en visuell semantikmodul i parallella flöden. Dessa extraherar respektive rörelse- och objektspecifika egenskaper.

03

Feature-fusion

De två dataströmmarna förenas i ett centralt fusion-lager, där informationen viktas dynamiskt beroende på kontext. Här avgörs hur mycket rörelse- respektive semantikkomponenterna ska bidra i tolkningen.

04

Beslut och förklaring

Det sammanslagna resultatet skickas till ett beslutslager som genererar både en prediktion och en förklarande textbeskrivning. Det säkerställer att varje beslut kan granskas och förstås i efterhand.

Allt sker inom den lokala infrastrukturen, utan att några bilder, videor eller metadata lämnar platsen.

Agentisk arkitektur

Samförstånd istället för sannolikhet

Ett viktigt steg i utvecklingen var insikten att ingen enskild modell alltid har rätt. Därför övergick vi till en multi-agent-arkitektur, där flera modeller samverkar i en strukturerad beslutsprocess.

När en händelse uppfattas skickas informationen genom dessa agenter, som analyserar den ur sina respektive perspektiv. Resultaten sammanställs sedan i en logisk beslutsmodul som väger evidensen mellan dem.

Fyra agenter

Agent för rörelse

Analyserar temporala mönster

Agent för kontext

Förstår scenens sammanhang

Agent för språkförståelse

Genererar semantiska beskrivningar

Agent för logik

Väger evidens och beslutar

Det är alltså inte sannolikhet som avgör, utan konsensus mellan systemkomponenter.

Detta har kraftigt reducerat felaktiga larm, ökat transparensen och gjort att beslut nu kan granskas som en kedja av motiverade observationer — inte som en svart låda.

Datainfrastruktur och effektivitet

För att möta kraven på realtidsprestanda och dataskydd har arkitekturen byggts för lokal beräkning och modulär skalbarhet.

01

Edge computing

All bearbetning lokalt

02

GPU-acceleration

Låg latens, hög prestanda

03

Digital suveränitet

Data lämnar aldrig platsen

Videoströmmar hanteras direkt på GPU-accelererad hårdvara, där kodexoptimeringar och modern videokomprimering minskar latenserna dramatiskt.

Vår edge-baserade design innebär att varje butik eller anläggning är en självständig nod, där all databehandling sker internt.

Detta skapar digital suveränitet — data lämnar aldrig platsen, och systemet förblir operativt även utan molnuppkoppling.

Data, etik och precision

Varje beslut i vår utveckling har grundats i principen privacy by design. Det betyder att integritet inte är något som läggs till i efterhand, utan något som styr hela den tekniska strukturen.

Ingen datalagring

Ingen överföring

Ingen profilering

Vi utvecklar, testar och validerar våra system i kontrollerade miljöer, inklusive vår egen fysiska testbutik. Där skapar vi syntetisk och annoterad data som gör det möjligt att förbättra precisionen utan att använda kunddata.

Annoteringarna görs med hjälp av AI-assisterade verktyg och mänsklig granskning i en human-in-the-loop-process, vilket säkerställer att systemet tränas på rättvisa, balanserade och etiskt framtagna datamängder.

Nästa generation

Mot nästa generation av förståelse

Nästa steg i vår utveckling är att gå från pipeline-baserad förståelse till sekventiell, resonemangsdriven analys. Vi arbetar mot en arkitektur där varje modul inte bara bearbetar information, utan förstår sitt syfte i kontexten av helheten.

Preventai World Reasoning Model

Ett system som inte bara analyserar vad som sker, utan förstår varför det sker, i relation till omgivningens dynamik

Det är den naturliga fortsättningen på vår filosofi: att kombinera datorseende, språkförståelse och etik till en helhet där teknik förstärker människans förmåga – inte ersätter den.

Vill du veta mer om vår arkitektur?

Upptäck hur vi bygger AI-system som förstår verkligheten.