Naar de content

Duurzamere dataopslag

Frederique Matti voor NEMO Kennislink

Elke foto die je op je socials zet, elk bestand dat je opslaat op je clouddrive: alles vreet opslagruimte in de cloud en verbruikt daarmee energie. Dataopslag en -transport zijn verantwoordelijk voor een belangrijk deel van de energiekosten van het internet. Dat moet anders.

17 november 2023

Bedrijven die veel data opslaan, zoals Instagram en TikTok, maar ook Dropbox en andere cloudopslagdiensten, gaan vast heel zuinig om met opslagruimte. Vergelijkbare bestanden hoeven slechts enkele keren opgeslagen te worden en niet honderden of misschien wel honderdduizenden keren. Toch? Helaas, bestanden worden wél heel vaak opgeslagen, vertelt Bernard van Gastel, universitair docent Duurzame Digitalisering aan de Radboud Universiteit Nijmegen. Hetzelfde plaatje dat je deelt op je socials lijkt van buiten misschien wel hetzelfde, maar onder meer door versleuteling is het niet mogelijk iedereen één plaatje te laten gebruiken.

Freepik

Wacht even, hoe zit dat? Want in principe kun je een plaatje op één plek neerzetten. Als Jasmientje, Pietje en Grietje het gebruiken, zouden die technisch gezien allemaal naar hetzelfde bestand kunnen verwijzen, zolang ze het niet zelf downloaden. Een ander hoeft niet eens te weten om wat voor bestand het gaat, want het is mogelijk om bestanden te vergelijken zonder een bestand zelf te bekijken. Is een bestand hetzelfde als een ander bestand, dan hoef je dat in feite maar één keer op te slaan, als iedereen die denkt het bestand te bezitten er maar bij kan. “In jargon heet dat deduplicatie. Dit kan heel veel ruimte besparen, zeker op plekken waar veel identieke gegevens worden opgeslagen”, zegt Van Gastel. “Alleen zit er een addertje onder het gras: het kan niet als bestanden versleuteld zijn, dus dit kan alleen als je maar met één gebruiker op een server zit of als privacy niet belangrijk is.” Het is in zo’n systeem onmogelijk de inhoud te vergelijken zonder te ontsleutelen, anders zou je daar misbruik van kunnen maken. Vrijwel alle systemen worden door meer mensen of instanties gebruikt, wat betekent dat bestanden versleuteld zijn en niet door anderen in te zien – en dat is natuurlijk maar goed ook.

Snackwand

Als we helemaal teruggaan naar het begin van ons internet, dan zie je ook waar het ooit in beginsel voor bedoeld was: het makkelijk delen van wetenschappelijke data. Het oudste datacentrum staat dan ook op het terrein van CERN, het Zwitserse onderzoeksinstituut van die enorme deeltjesversneller. Wetenschappers konden als het ware ‘inbellen’ en zo verbinding maken met de data op die locatie. Al snel kwamen daar verbindingen bij met andere wetenschappelijke instituten, zoals al helemaal in het begin het SURF-datacentrum in Amsterdam.

Het datacentrum van CERN met internet- en mailservers in 2010.

Hugovanmeijeren, Wikimedia Commons via CC BY-SA 3.0 Deed

In heel korte tijd bleek er een enorme berg wetenschappelijke data te ontstaan. Allerlei bestaande en nieuwe technieken moesten toegepast of bedacht worden om de stroom in te dammen, te kanaliseren en logisch te verwerken. Een van de bekendste manieren die nog steeds veelvuldig gebruikt wordt, is een bestand zippen. Er bestaan veel meer manieren om bestanden klein te maken, zonder dat er informatie verloren gaat.

Die informatie staat vervolgens nog steeds op de servers. En die servers, die staan het hele jaar, 24 uur per dag, aan en dus elektriciteit te slurpen. Met grote uitdijende datasets werd dat al snel een uitdaging en CERN, maar ook andere grote dataverbruikers, ging al snel over tot ‘koude’ opslag. Dat is het opslaan van gegevens op een plek die niet altijd bereikbaar is. Daar zijn ingenieuze systemen met robots voor en een soort van grote cassettetapes die de data later weer in kunnen laden zodat die bereikbaar zijn. Stel je een soort van enorme FEBO-snackwand met allemaal klepjes voor. Achter elk klepje zit dan een gelabelde datatape. Een robot haalt vervolgens de juiste harde schijf uit het kastje en plaatst die op een plek waar die uitgelezen kan worden. Dat heet ook wel tiered storage.

Back-ups

Terug naar ons huidige internet. We willen constant overal bij te kunnen en snel ook. Ook bij dat ene mailtje uit 2004 in je Gmail of dat ene fotootje uit 2008 in je Dropbox. En dan ook nog zo opgeslagen dat niemand bij de bestanden kan. Dan werkt tiered storage niet, omdat het dan te lang zou duren voor je de informatie hebt. Van Gastel: “Tegenwoordig zie je dat versleuteling en de waarde van privacy op gespannen voet staan met duurzaamheid, niet in de laatste plaats omdat deduplicatie niet meer kan.”

“Veel klanten van datacentra willen alles zo snel mogelijk kunnen benaderen. Stel je voor dat een harde schijf kapotgaat, dan moet je daar niets van merken”, zegt hij. Een back-up van de data helpt dan niet. Van Gastel legt uit dat dit komt doordat een ouderwetse back-up niet direct ‘aan’ staat. Het duurt langer om toegang te krijgen tot de data, omdat de opgeslagen gegevens niet direct aan het netwerk hangen, maar in de tiered storage. “Dus wat doen ze nu: de data worden drie keer opgeslagen op direct toegankelijke systemen en als er dan een schijf stuk gaat, dan zijn er nog twee direct toegankelijke systemen. Daarbovenop komen overigens ook nog de echte back-ups.”

Inmiddels duizelt het bijna aan hoeveel systemen er zijn. Waarom dan ook nog die extra back-ups? Dat is eigenlijk vrij simpel: “Met losstaande back-ups ben je weerbaarder voor aanvallers en softwarefouten. Dan heb je een losgekoppelde kopie van de data. Bij zo’n redundant systeem, zo’n systeem met drie kopieën waar we het net over hadden, is het: je drukt op ‘delete’ en alles is op alle plekken weg.”

Obscure film

Van Gastel legt uit dat de energie niet alleen in de drie redundante systemen gaat zitten, maar ook in de overhead, de systemen die al díe systemen weer moeten verbinden. Dus al die bestanden die je deelt, foto’s op socials, in clouddrives, videocalls, alles staat nog minstens drie keer energie te verbruiken. Dat kost allemaal geld. En veel bedrijven willen zo min mogelijk geld besteden aan dat soort zaken. Er zijn bedrijven die constant grote hoeveelheden data naar de mensen thuis transporteren, zoals video- en audiodiensten.

Reken maar dat Netflix en Spotify zo dicht mogelijk bij je thuis een speciale server hebben staan bij je eigen provider om populaire films en muziek zo dichtbij mogelijk te streamen. Het kost anders veel geld om een populaire film over een zeekabel te versturen vanuit Amerika. “Maar”, zegt hij, “als je een obscure film hebt, merk je dat die er misschien wat langer over doet om te starten. Die staat dan duidelijk niet bij de provider-om-de-hoek.”

Energieverbruik

Je ziet dat dataopslag en -transport belangrijke onderdelen zijn in de energiekosten van het internet en al onze online systemen. Van Gastel zegt dat het niet makkelijk is het precies te berekenen. omdat er zo ontzettend veel verschillende lagen en partijen in de systemen zitten, van software, hardware, transport van data, datacentra, informatiestromen en wat al niet meer.

Datacentra in Nederland verbruikten in 2021 net zoveel energie als ruim 1,3 miljoen huishoudens.

Freepik

De laatste data over datacentra in Nederland liegen er niet om: in 2021 verstookten alle grote geregistreerde centra 3,7 terawattuur in een jaar aan elektrische energie (een gemiddeld huishouden in Nederland gebruikt 2800 kilowattuur per jaar, dus dat is net zoveel als ruim 1,3 miljoen huishoudens). Dat was in 2019 nog 2,7 TWh. “En ik verwacht dat 2022 – de cijfers lopen altijd ruim een jaar achter – minstens een halve terawattuur hoger ligt door steeds meer datacentra in Nederland. Dan kunnen we aan de ene kant wel zuiniger met energie doen, als er aan de andere kant structureel een halve terawatt bijkomt, dan drukt dat de energiedoelstellingen.”

Grote organisaties zouden duurzaamheidseisen in hun softwareaanbestedingen moeten opnemen, vindt Van Gastel. En er moeten methoden komen om energieverbruik inzichtelijk te maken voor softwareontwikkelaars. Daar werkt Van Gastel zelf aan. Maar ook eindgebruikers kunnen hun gedrag aanpassen. “We moeten stoppen met twintig mensen grote bijlages te mailen. Deel gewoon één link naar een bestand. Of deel het helemaal niet. En gooi af en toe oude data weg. Voor je het weet heb je niet alleen vliegschaamte, maar ook dataschaamte.”