"Gjør test til en fest! Løsning for syntetiske testdata" vant Datatilsynets pris for innebygd personvern

Datatilsynets pris for innebygd personvern 2019 gikk til NAV.


 

Ekstra moro for Promis Qualify siden to av våre, Sidsel Wang Skudal og Richard Rostad, hadde sentrale roller i prosjektet.

Juryens beskrivelse av bidraget: "NAV har utviklet en metode og løsning for å lage syntetiske testdata ved hjelp av maskinlæring og gjenbruk av eksisterende forretningslogikk. Syntetiske opplysninger trer inn i stedet for reelle opplysninger, og dette gir anonymisering etter at transformering har skjedd. Behovet for syntetiske data og testdata i tilknytning til systemutvikling uavhengig av sektor er stort. Syntetiske data er også viktig og kan benyttes i samfunnsplanlegging, for eksempel for å teste mulige effekter av planlagt politikk eller i forbindelse med kunstig intelligens. Bidraget viser at det er fullt mulig å bruke syntetiske data, til tross for argumentasjoner om at det er for vanskelig, for kostbart og for tidkrevende. Det står på vilje og gammel vane."

Her kan man lese Richard's artikler som beskriver prinsippene: "GDPR og hvorfor vi ikke kan bruke skarpe testdata" og "Testdata og GDPR tatt på alvor".

Vi tok en prat med Sidsel og Richard for å høre hva de synes om å ha bidratt til denne prisen:

"Det var veldig flott å høre at NAV og prosjektet vårt har vunnet prisen for innebygd personvern 2019!

Vi benyttet syntetiske data som er kjemisk renset for persondata og helt frikoplet fra virkeligheten. For å komme frem til hvordan man skulle løse personvern med bruken av syntetiske testdata gikk noen ideer i vasken, mens andre hårete ideer ble bygget videre på og viste seg å fungere veldig godt. Systemer med enkle sammenhenger ble løst med enkle manuelle algoritmer, mens for mer kompliserte sammenhenger benyttet vi maskinlæring, og gjenbrukte forretningslogikken fra produksjon for å distribuere testdataene ut til testmiljøene.
Det er en fordel å teste underveis, for det kan være en dyr affære å fikse feil i etterkant, da man kanskje må kjøre hele maskinlæringsprosessen på nytt.  
Mocking og stubber ble benyttet for å få en effektiv testing. På denne måten fikk vi gode testdata med all intern business logikk beholdt selv om datamodellen var kompleks.

Det ble laget en applikasjon som genererte testdata "on the fly", med input som kjønn, alder, personstatus osv.

Det overordnede målet var å kun ha testdata som er i henhold til GDPR, men med det fikk vi også et verktøy til å effektivt lage akkurat de testdata vi trengte i alle testsammenhenger.
 
Det er også viktig å kommentere at en så stor satsning gir mening for NAV. De har stort behov for at testdata henger sammen på tvers av systemer. Ikke alle virksomheter har samme krav, så for noen vil dette være i overkant. Da kan det være en enklere vei frem til noe som både er godt nok og følger forordningen."

For tips eller spørsmål er det bare å ta kontakt med Promis Qualify. Alle forespørsler er velkomne.


Les mer om prisen og utdelingen på Datatilsynets egne sider her