Data wordt wel de olie van de eenentwintigste eeuw genoemd. Grote gegevensreeksen zijn inmiddels een economische motor. Maar we kunnen er ook allerlei maatschappelijke problemen mee oplossen. Het wegennet veiliger maken, verbanden leggen tussen leefstijl, milieuvervuiling en ziekten. Bedenk een vraagstuk en met de juiste data kom je bij een oplossing. Datacenters zijn voor onze tijd wat de pakhuizen van de VOC waren in de zeventiende eeuw.
Data kunnen volstrekt anoniem zijn. Denk bijvoorbeeld aan temperatuurreeksen die weerstations overal ter wereld verzamelen. Maar heel veel data, steeds meer data, hebben mensen als bron. Niet alleen door het gebruik van sociale media, maar ook omdat we bijvoorbeeld rondrijden in auto’s die data over rijgedrag naar de fabrikant sturen, of omdat we een cv-ketel hebben die data naar de fabrikant stuurt. Die data worden gebruikt om producten en onze ervaring hiermee beter te maken. Data zijn voor fabrikanten inmiddels een belangrijk gegeven in het behouden van concurrentievoorsprong.
Maar wat nu als data die ik heb gegenereerd in ‘andere handen’ vallen, bijvoorbeeld omdat de autofabrikant besluit samen met een verzekeraar onderzoek te gaan doen naar risicovol rijgedrag. Door databases met elkaar te vergelijken wordt het opeens mogelijk daar gegevens aan te ontlenen die verwijzen naar individuen. Sterker nog: door heel veel databases naast elkaar te leggen, neemt het aantal waar te nemen verbanden en mogelijke oplossingen exponentieel toe. Maar ook de kans om deze data te linken aan individuen neemt zo drastisch toe. Dit is kort gezegd het enorme datadilemma van onze tijd waar wij op de Dag van de Privacy in elk geval eens wat langer bij moeten stil staan.
Datadilemma
De meeste mensen hechten veel waarde aan hun privacy, maar ze willen ook de voordelen van de openheid van data. Datareeksen van persoonlijke details ontdoen als manier om anonimiteit te verzekeren, werkt niet in een wereld die zo enorm veel data genereert. Er is geen wereldwijde standaard voor anonimisering en als we er in zouden slagen er een te formuleren dan is die door het voortschrijden van de techniek waarschijnlijk binnen de kortste keren achterhaald. De deskundigen zijn het er zo onderhand wel over eens dat het publiekelijk toegankelijk maken van geanonimiseerde data geen afdoende privacybescherming biedt. Maar hoe dan wel? Je zou onderzoekers via een soort vraag-en-antwoord interface op indirecte wijze toegang kunnen geven tot data waarbij ze de data zelf niet meer te zien krijgen. Echter zo’n interface beperkt volgens deskundigen weer de reikwijdte van datastudies.
Daarom wordt op allerlei plaatsen nagedacht over hoe je data in volstrekte anonimiteit toch zuiver toegankelijk kunt laten blijven. Vanuit de wereld van de wiskunde wordt bijvoorbeeld gewerkt aan een oplossing als homomorfische encryptie. De dataset is dan versleuteld en valt alleen te bevragen met een querie die op identieke wijze is versleuteld. Het antwoord is dan hetzelfde als wanneer er niet zou zijn versleuteld en de vragensteller kan de data nimmer met eigen ogen zien.
Publieke voorlichting
Ondanks dat er hard gewerkt wordt aan dit type technisch-wetenschappelijke oplossingen om onze privacy beter te beschermen denk ik dat de publieke voorlichting over het belang van datagebruik tegelijkertijd ook beter moet. Want tegenover het risico van inbreuk op onze privacy, staat het risico dat we als samenleving niet optimaal gebruik maken van data waarmee we de wereld beter kunnen maken dan ze nu is.