Naar de content

Van fossielen tot Facebook: álles is data

Een vrouw staat in een oneindige ruimte vol glitteringen. De ruimte is onderdeel van teamLab Planets TOKYO.
Een vrouw staat in een oneindige ruimte vol glitteringen. De ruimte is onderdeel van teamLab Planets TOKYO.
flickr.com, Dako Huang via CC BY 2.0

We laten op ontelbaar veel manieren fysieke en digitale sporen na in de wereld en creëren op die manier data. Uit welke gegevens en informatie bestaan wij? “Mensen mogen best wat zuiniger omgaan met hun data.”

8 oktober 2021

Voetsporen in de modder lijken onbenullige afdrukken, maar bevatten meer informatie over je dan je denkt. Neem een forensisch specialist in de arm en deze leidt hieruit moeiteloos af welke schoenmaat je hebt, welke schoenen je droeg, wanneer je daar ongeveer liep en welke kant je op ging. Waarschijnlijk kan hij ook zeggen hoe zwaar je ongeveer bent en op welke manier je loopt. Toen de prehistorisch planteneter Orobates pabsti door de modder liep, had hij geen enkel vermoeden dat zijn voetstappen ruim 250 miljoen jaar laten zouden leiden tot een reconstructie van zijn opmerkelijke loopgedrag.

Voetsporen zijn maar een voorbeeld, want je laat op ongelooflijk veel meer manieren óveral sporen na en creëert op die manier ‘data’. Zowel in de echte als in de digitale wereld. Sommige sporen verdwijnen snel; andere blijven bestaan, worden voor onbepaalde tijd opgeslagen en misschien weer gebruikt. Sommige data zijn waardeloos; andere data worden genadeloos te gelde gemaakt door de commercie. Facebook zou je op basis van driehonderd ‘likes’ beter kennen dan je partner (een claim waar overigens nog wel iets op af te dingen is) en gebruikt die informatie om bedrijven advertentieruimte te verkopen die alleen jij vervolgens ziet.

De centrale opslag van de natuur

Het leven op aarde kan niet zonder dataopslag. En daarmee bedoel ik niet je laptop of fotoboeken, en ook niet je papieren administratie en cloud-opslag. Elke cel in ons lichaam bevat de genetische code waarin al jouw ‘eigenschappen’ zijn vastgelegd, van de kleur van je ogen tot de kans op erfelijke ziektes. Deze informatie staat in het DNA-molecuul en is opgeschreven in een taal met slechts vier letters. Jouw volledige code is ruim drie miljard letters lang. Dat lijkt verrassend kort: je DNA-code past in een bestand van ongeveer drie gigabyte groot, en met een slimme manier van opslaan slinkt die grootte tot minder dan een gigabyte. Je kunt de volledige genetische code van een gezin met vier leden makkelijk op een dvd’tje branden.

De lengte van een genetische code blijkt niet zoveel te zeggen over de complexiteit van een organisme. Het genoom van de eencellige zoetwateramoebe Polychaos dubium zou naar verluidt zo’n tweehonderd keer langer zijn dan dat van een mens.

Toch bevat ons lichaam veel data. Bio-informaticus Rob ter Horst kijkt naar ons immuunsysteem en hoe factoren als geslacht, leeftijd en genetische informatie daar invloed op hebben. “In sommige van onze onderzoeken gaat het om terabytes aan data. We kijken naar veel verschillende individuen, van wie het genoom bovendien meerdere keren gelezen wordt om zeker te zijn van de code, en naar aanvullende informatie, zoals de manier waarop het DNA is gevouwen”, zegt hij. “Dit is het zogenoemde epigenoom. Dat bestaat uit informatie die vertelt hoe ons gehele genoom is opgevouwen, wat ook per individu verschilt. We bekijken hiervoor ongeveer zestigduizend verschillende plekken.”

Inmiddels hebben onderzoekers een aardig beeld van hoe de natuur de centrale opslag heeft geregeld. De code in het DNA vertelt je lichaam hoe verschillende eiwitten die een bepaalde functie in het lichaam hebben eruitzien. Het epigenoom is daarbij een soort regulerende laag die mede bepaalt hoeveel er van elk eiwit moet worden gemaakt. Toch zijn er een hoop menselijke eigenschappen die niet van één gen afhangen, maar het resultaat zijn van de samenwerking van meerdere genen én omgevingsfactoren. Lengte is zo’n eigenschap. Ter Horst laat weten dat het vooralsnog te complex is om deze processen precies te modelleren en te voorspellen.

Zo veel mogelijk informatie over jezelf

Bio-informaticus Rob ter Horst is niet alleen ‘datalustig’ als het om genetisch materiaal voor zijn onderzoek gaat. Hij verzamelt ook zo veel mogelijk data over zichzelf. Sinds 2018 maakt hij wekelijks een MRI-scan van zijn hersenen en meet hij hoe heeft geslapen, hij heeft 250 monsters van zijn microbioom (lees: poep), test tweemaal daags zijn reactievermogen, noteert zijn bloedsaturatie en hartritme, en vult vragenlijsten in over hoe hij zich voelt. Hij begon daarmee uit interesse voor wat hij allemaal aan zichzelf kon meten. Inmiddels beschikt hij over een redelijk unieke en complete dataset, die ook interessant is voor andere onderzoekers. Uit de MRI’s in combinatie met de slaapdata is bijvoorbeeld te halen wat slaap doet met hersenen. Op NEMO Kennislink schreef Ter Horst over zijn quantified self-activiteiten.

De aarde als harde schijf

Het leven heeft een geraffineerde manier gevonden om genetische data op te slaan, maar laat zelf ook veel sporen na op onze de planeet. In feite kun je de aarde best als een soort harde schijf beschouwen – een goudmijn voor wetenschappers die proberen te reconstrueren hoe het leven ontstond.

Dat soort wetenschappers vind je in Leiden, in het Naturalis Biodiversity Center, dat boven de omliggende gebouwen uittorent. In die toren liggen talloze lades met uitgestorven bijen, doosjes met oude haaientanden, reusachtige botten van mammoeten en stenen waarin de fossiele afdruk van leven van meer dan een half miljard jaar geleden is vastgelegd. Het zijn allemaal stukjes informatie over het miljarden jaren durende ‘verhaal’ van onze planeet en het leven daarop.

De toren bevat volgens collectiebeheerder Natasja den Ouden 42 miljoen collectiestukken die onder specifieke en constante omstandigheden – denk aan luchtvochtigheid en temperatuur – liggen opgeslagen.

Fossiel van een organisme uit de ediacaratijd.

Verisimilus at English Wikipedia, via Wikimedia Commons, CC BY-SA 3.0

Den Ouden is zelf verantwoordelijk voor de deelcollectie fossielen, waarvan de oudste exemplaren zo’n 575 miljoen jaar oud zijn. Dat zijn zogenoemde meercellige organismen uit de ediacaratijd waarvan het lastig is om ze in de categorie plant of dier te plaatsen, omdat deze nog niet bestonden.

Hoe kan het dat de planeet aarde sommige sporen zó lang opslaat, terwijl de meeste organische sporen binnen no time verdwijnen? Volgens Den Ouden is het toeval. “Je moet gewoon mazzel hebben”, zegt ze. “Stel je bent een organisme dat later in een museum wil komen, zorg er dan voor dat je lichaam na je dood snel wordt afgedekt door sedimenten. En er moet zo min mogelijk zuurstof bij kunnen komen. Val bijvoorbeeld in een zuurstofarm meer – dat is al veel beter dan doodgaan in een weiland, waar je lichaam snel ontbindt en waarschijnlijk wordt opgegeten.”

Alles is data

Alles is data, zegt theoretisch fysicus Erik Verlinde van de Universiteit van Amsterdam. Van de DNA-moleculen die ons genetische informatie vastleggen tot fossielen in de aardkorst, van zwarte gaten tot onze gedachten. Verlinde bekijkt het begrip ‘informatie’ met de ruimste blik die mogelijk is: een kosmisch perspectief.

Een silhouette van een persoon staat op een rots en kijkt omhoog naar de melkachtige omgeving.

Blik op het universum.

Unsplash.com by Greg Rakozy via CC0

De constatering dat alles data is, vormt de kern van Verlindes zwaartekrachttheorie. Die theorie probeert de bewegingen van sterren en sterrenstelsels te verklaren, iets waar de meer klassieke modellen niet in slagen.

Verlinde stelt dat zwaartekracht slechts een zogenoemde ‘emergente’ eigenschap is van hoe de informatie van het universum zich gedraagt. De term ‘emergent’ is nog het best te verklaren als een eigenschap die voortkomt uit een andere eigenschap. Neem als voorbeeld temperatuur: wij ervaren die direct, maar op moleculaire schaal is het een maat voor de snelheid waarmee materiedeeltjes bewegen.

En wat is de informatie waar Verlinde het over heeft? Volgens hem zijn het de data die nodig zijn om in feite de gehele ‘toestand’ van het universum vast te leggen, zoals de positie en massa van alle deeltjes die zich in het universum bevinden. Verlinde vergelijkt het ook wel met quantumgetallen uit de quantummechanica. Die getallen beschrijven de toestand van een deeltje, bijvoorbeeld de spin, die vertelt in welke richting een deeltje draait.

Het meest wonderlijke vindt Verlinde niet dat die informatie er is, maar dat het een eindige hoeveelheid lijkt te zijn. Bovendien verandert die hoeveelheid informatie niet. “Het ‘boek’ dat de toestand van het volledige universum beschrijft, is ongeveer 10120 tekens groot”, zegt hij. “Daarin staat álles: van de verdeling van materie in het universum tot aan onze gedachten, die ontspruiten uit ons materiële brein.”

Verdwijnt er dan echt niets? Jarenlang hebben natuurkundigen vurige debatten gevoerd over de vraag of informatie verdwijnt als een zwart gat materie opslokt. Informatie líjkt dan voor altijd in dat zwarte gat te verdwijnen, waardoor het universele informatieboek slinkt. Toch komen deze data uiteindelijk weer terug wanneer zwarte gaten langzaam ‘verdampen’ als gevolg van de door de beroemde natuurkundige Stephen Hawking voorgestelde Hawkingstraling, aldus Verlinde. De informatie is zo slechts tijdelijk ‘verborgen’ geweest.

Visualisatie van de ritjes die iemand registreerde met een fietsapp. Het laat de plekken zien die iemand vaak bezoekt.

flickr.com, Adrian Tritschler via CC BY-NC-ND 2.0

Prominente plek in dagelijks leven

Data in de vorm van DNA, de planeet aarde of zelfs het universum gaan al een tijdje mee, maar data lijken eveneens een steeds prominentere plek in ons dagelijks leven op te eisen. Waarom draait er tegenwoordig zoveel om data? Waarom zijn de machtigste bedrijven in de wereld databedrijven en spelen data een essentiële rol in allerhande maatschappelijke domeinen, van de overheid tot de wetenschap? Hugo Jonker, universitair docent van de Open Universiteit, wijt het onder meer aan het karakter van digitale informatie: die blijft doorgaans lang bestaan, kan vrijwel moeiteloos gekopieerd, verspreid en doorzocht worden. “Stel, je gaat naar de supermarkt en medewerkers zien jou daar. Als de politie een half uur later vraagt of jij er was, herkent het personeel je misschien niet eens meer. Checken de agenten een database met IP-adressen van telefoons die verbinding maakten met het lokale wifi-punt, dan pikken ze jouw telefoon er zo uit”, zegt hij.

Ook zeggen veel digitale sporen misschien meer over ons dan sporen in de ‘echte wereld’, aldus Jonker. Op internet zijn we doorgaans veel ‘doelmatiger’. Zo kom je meestal niet per ongeluk ‘langs’ een website, zoals je wel per ongeluk langs een winkel loopt. Je bezoekt een bepaalde webpagina, omdat je naar iets op zoek bent. Die informatie kan gebruikt worden voor onschuldige (gerichte) advertenties, maar net zo goed om verkiezingen te beïnvloeden.

Jonker maakt overigens onderscheid tussen data (bijvoorbeeld enen en nullen op een harde schijf) en informatie (dat wat die data betekenen in een bepaalde context). Voor een privacyexpert als hij gaat het om de bescherming van informatie, en dan is juist de context extreem belangrijk. “De woorden ‘Positie Omtzigt, functie elders’ betekenen wellicht niet zoveel, behalve als ze in de aantekeningen van de formateur van een nieuwe kabinet staan en worden gefotografeerd. Dan is het opeens politiek dynamiet”, zegt hij.

Jij bent je data

Wat ben jij in dit verhaal? Het is maar net welke bril je op hebt. Je bent drie miljard ‘letters’ in een DNA-molecuul, je bent de pakweg tien terabyte die je hersenen naar verluidt kunnen opslaan, je bent een stukje informatie in de kosmische informatieboekhouding, je bent misschien wel een fossiel waarmee een toekomstige beschaving onze soort beschrijft, je bent de (digitale) sporen die je in de wereld achterlaat.

Volgens Jonker mogen we wat betreft die sporen best wat zuiniger zijn op onze data, en is het ‘ik heb niets te verbergen’ wat sommigen aanhangen, onzin. Er is altijd wel een manier te bedenken hoe jouw informatie gebruikt en misbruikt kan worden. Het bijna klassiek geworden voorbeeld is dat van de Amerikaanse supermarkt Target, waar de New York Times in 2012 over berichtte (zie ook het kader in dit NEMO Kennislink-artikel): op basis van het koopgedrag van een minderjarig meisje ‘wist’ een algoritme van de winkel dat ze zwanger was, tot ontsteltenis van haar vader die er pas achterkwam toen de winkel haar gerelateerde kortingsbonnen toestuurde.

Grotschildering: een Indonesisch wrattenzwijn

Een wrattenzwijn in Indonesië is de oudste, bekende grotschildering. Waarschijnlijk bedoeld om een verhaal te vertellen over jachttrofeeën. De schildering is nog altijd duidelijk zichtbaar. Zelfs de borstelige rugharen zijn te zien.
Houdbaarheid: al zo’n 45.000 jaar

Wikimedia commons, Basran Burhan via CC BY-SA 4.0

Spijkerschrift: spijkerharde data

Zo’n vijfduizend jaar geleden ontstond er in het Midden-Oosten een schrift dat je met een rietstengel in klei kraste. Eerst gebruikte men veel pictogrammen, later werd taal abstracter met ‘spijkerachtige’ inkepingen. Mensen gebruikten het onder meer om de boekhouding te doen. Veel (uitgeharde) kleitabletten zijn nu nog in prima staat.
Houdbaarheid: al vijfduizend jaar, waarschijnlijk veel langer

Wikimedia commons, U0045269 via CC BY-SA 4.0

Papyrus: het oudste papier

Tegenwoordig kennen we de cyperus papyrus vooral als plant voor de vijver. Vijfduizend jaar terug werden zijn stengels geperst tot een soort papier: papyrus. Uit het Oude Egypte bestaan documenten met medische praktijken, wiskundige berekeningen en volksverhalen. Helaas kan papyrus slecht tegen vocht: in Europa is vrijwel alles verloren gegaan. Zo’n tweeduizend jaar geleden verdrongen perkament en later papier het papyrus.
Houdbaarheid: enkele duizenden jaren onder droge omstandigheden

Wikimedia commons, publiek domein

Olieverfschilderij: het kiekje van de renaissance

Hoewel lang daarvoor al werd geschilderd op gebouwen, keramiek en andere materialen breekt het olieverfschilderij in Europa door in de vijftiende eeuw. Schilders leggen de wereld om zich heen nauwkeurig vast op doek en experimenteren met technieken. In eerst instantie is het werk vaak religieus van aard, later verschijnen meer alledaagse taferelen en portretten.
Houdbaarheid: vijfhonderd jaar door middel van restauratie

Wikimedia commons, Leonardo da Vinci via publiek domein

Ponskaart: gatenkaas van informatie

De Franse uitvinder ​​Joseph-Marie Jacquard ontwikkelt in 1790 een systeem om met een weefgetouw automatisch een patroon in het stof te weven. Het gebruikt een ‘programmeerbare’ kartonnen strook waarin op specifieke plekken gaten zitten. Dit patroon geeft aan hoe de machine draden rij voor rij in elkaar weeft. De ponskaart als informatiedrager bleek in de tweehonderd jaar daarna veelzijdig: het werd gebruikt in bijvoorbeeld draaiorgels en bij volkstellingen voordat de computer het werk overnam.
Houdbaarheid: honderden jaren

Pete Birkinshaw, CC BY 2.0 via Wikimedia commons.

Foto: het licht vastleggen

De eerste foto met een persoon erop werd in 1838 gemaakt in Parijs. Het maken van een foto duurde in die tijd minuten, waardoor bewegende objecten – zoals mensen – doorgaans vervaagden op de opname. Deze meneer (linksonder in beeld) stond echter een tijd stil, waarschijnlijk om zijn schoenen te laten poetsen. Afhankelijk van de afdruktechniek verschilt de houdbaarheid; veel foto’s verkleuren binnen tientallen jaren.
Houdbaarheid: tientallen jaren, afhankelijk van de techniek

Wikimedia commons, Louis daguerre via publiek domein

Wassen cilinders: geluiden uit een verleden

Vrolijke xylofoonnoten dansen over de tonen van een blaasorkest. Dit vier minuten durende stukje muziek werd rond 1912 opgenomen en staat op een cilinder met een laagje was waarin de geluidstrillingen zijn ‘gekrast’. Het kan nog steeds met een zogenoemde fonograaf worden afgespeeld, een apparaat dat het bedrijf van de Amerikaanse uitvinder Thomas Edison in 1880 ontwikkelde.
Houdbaarheid: zeker een eeuw

NEMO Science Museum

Magneetband: kilometers met deeltjesbotsingen

Tussen lange rekken met magneetbanden beweegt razendsnel een robot heen en weer die stopt om bepaalde banden op te halen en te lezen. Bij het Europese deeltjeslaboratorium CERN bij Genève staat een groot deel van de ruwe data uit de experimenten opgeslagen op tape. In 2019 had de organisatie 330.000.000 gigabyte aan gegevens. Tape is een relatief goedkope manier om veel informatie op te slaan.
Houdbaarheid: tientallen jaren

flickr.com, Seika via CC BY 2.0

Floppy: flexibele informatie

Ze bestaan in verschillende formaten, maar uiteindelijk werd de variant van 3,5 inch het meest populair. Op flexibele floppy’s kon je spelletjes, onderzoeksresultaten en andere belangrijke bestanden opslaan. Maar de gegevens konden relatief makkelijk verloren gaan, doordat bitjes (een stukje informatie op de schijf) spontaan veranderden. Floppy’s hadden geen lange houdbaarheid. Nu is het grootste probleem dat nog maar weinig computers ze kunnen ‘lezen’.
Houdbaarheid: ongeveer tien jaar

flickr.com, shane doucette via CC BY-SA 2.0

Cassettebandje: prutsen met een potlood

Jarenlang waren cassettebandjes de meest populaire manier om muziek af te spelen. Je kon er zelfs onderweg mee naar jouw favoriete artiesten luisteren. De tape in de bandjes liep nog wel eens vast, waarbij een potlood vaak uitkomst bood om alles weer goed te draaien.
Houdbaarheid: tot zo’n dertig à veertig jaar

flickr.com, Arild Andersen via CC BY-ND 2.0

Compact disk: het glimmende schijfje

Na de cassettebandjes werden de cd’s razend populair. Handig om muziek mee te luisteren, maar ook om gegevens op te slaan. De houdbaarheid loopt nogal uiteen, afhankelijk van hoe het schijfje is behandeld. Leg je het onbeschermd in de zon? Dan gaat het rap bergafwaarts. Maar bij goede kwaliteit en behandeling loopt de levensduur op.
Houdbaarheid: tientallen jaren

flickr.com, KaCey97078 via CC BY-NC 2.0

Harde schijf: omvallende bitjes

De harde schijf is een van de meest moderne manieren om (vakantie)foto’s, films en bestanden op te slaan. Je zou denken dat het daardoor ook een van de meest betrouwbare is. Mis! Een harde schijf krijgt na verloop van tijd last van datarot, doordat bitjes spontaan veranderen.
Houdbaarheid: vaak zo’n tien jaar

flickr.com, Anna via CC BY-SA 2.0

Het kan ook extremer. Data kan regelrecht gevaarlijk worden. “Stel, je was tot voor kort lerares op een meisjesschool in Afghanistan. Dat was prima, tot de regimewisseling afgelopen zomer. Nu ben je in de ogen van de nieuwe machthebbers opeens verdacht, en informatie over jou wordt gevaarlijk. Ik wil maar zeggen, dit is niet iets dat alleen in de Tweede Wereldoorlog met de joden gebeurde”, zegt hij. “En spionage is heus niet alleen iets wat in de DDR plaatsvond. Er bestaan spionage-apps die je stiekem op de telefoon van je partner kunt zetten als je hem of haar niet vertrouwt.”

Als privacyexpert denkt Jonker noodgedwongen in doemscenario’s; dat is nodig om kwaadwillenden voor te blijven én om het publiek en de politiek scherp te houden. Als voorbeeld noemt hij elektronische chips in paspoorten die een bepaalde foutmelding gaven. Die foutmelding bleek anders te zijn bij paspoorten uit verschillende landen. “Je haalt pas het nieuws als je zegt dat je aan de hand daarvan een bom kunt ontwerpen die automatisch afgaat als er een paar mensen van een bepaalde nationaliteit in de buurt staan”, zegt hij. “Eigenlijk is het jammer dat er dán pas aandacht voor is. Mensen zouden eigenlijk veel meer met hun data moeten omgaan als met bijvoorbeeld hun eigen portemonnee. Je laat een vreemde daar ook niet in rondneuzen, want die hebben daar gewoon niets te zoeken.”

De redactie vroeg wetenschapsdichter Marlies ter Voorde een gedicht over data te maken:

DATA

Alles en iedereen laat sporen achter
Een radioactief signaal, wat zand
Een zoekterm of een mening in de krant
Gesteente dat wat harder is (of zachter)

Een schedeldak, de afdruk van een hand
Werktuigen van een oude mammoetslachter
Het DNA-profiel van een verkrachter
Een gravitatiegolf, een sabeltand

Geleerden wijden delen van hun levens
Aan het verzamelen van die gegevens
Waaruit dan een verband wordt afgeleid

Dat daarna in een paper komt om tevens
Iets tastbaars na te laten in de tijd
Dat zich onttrekt aan de vergetelheid

Marlies ter Voorde

ReactiesReageer