Breng structuur aan in je data
De basisbegrippen rondom data-opslag uitgelegd
- Artikel
- Data Engineering

Elke organisatie verzamelt data. Maar hoe meer data, hoe onoverzichtelijker het kan worden. Daarom is het goed om je data gestructureerd op te slaan. Benieuwd wat hier allemaal bij komt kijken? Victor legt het je uit.
Data kennen we allemaal wel. Je kijkt op de klok en ziet hoe laat het is – dat is data. Je voor- en achternaam, dat is ook data. Je leeftijd, de kilometerstand van je auto, het saldo op je OV Chipkaart… data is altijd overal geweest, en je kunt er niet omheen.
Wat is een datamodel?
Als je deze data voor analytische doeleinden wilt verwerken in een data infrastructuur, moet je de data opslaan. Dat gebeurt op een bepaalde manier, en dat is het datamodel waarin de data wordt opgeslagen.
Een datamodel kan veel vrijheid bevatten – denk bijvoorbeeld aan de opslag op een laptop, waarbij alle bestanden door elkaar kunnen staan – of juist veel orde bevatten – denk dan bijvoorbeeld aan een database.
Hoe meer vrijheid je toestaat in de manier van opslaan, hoe lastiger het is om de data later te verwerken voor analytische doeleinden. Het kiezen van een bepaald datamodel voor de opslag is dus ook een keuze voor (1) of je van te voren nadenkt hoe je de data wil ordenen, of (2) dat je ervoor kiest om de data achteraf te interpreteren.
Wat zijn datawarehouses en data lakes?
Een data lake of datawarehouse is een opslagplek voor data, die niet (direct) door operationele systemen gebruikt wordt.
Een datawarehouse heeft een gestructureerde manier van opslag, terwijl een data lake veel meer vrijheid biedt. Dat maakt een datawarehouse echter niet ‘minder goed’ of ‘beter’ dan een data lake, alleen anders.
Vaak is een data lake beter geschikt voor de opslag van ruwe, relatief onbewerkte data. Vanuit een data lake lees je dan weer die data in, en verwerk je het tot een vorm die bijvoorbeeld voor een datawarehouse geschikt is.
Hoe moet ik mijn data opslaan?
Het datamodel voor een datawarehouse kan worden opgesteld door data architecten, data engineers, data modelleurs, en andere data professionals met verstand van data modelleren.
Elke vorm heeft zo zijn voor- en nadelen en er is geen one-size-fits-all, ook al willen sommige voorstanders van een typering dat wel doen geloven. Vaak liggen er onder de one-size-fits-all benaderingen aannames die in de praktijk onhaalbaar zijn. Hierbij is te denken aan goed gedefinieerde en weinig veranderlijke business datadefinities.
Wat is een data infrastructuur?
Achter een goed datamodel ligt een goede data architectuur, waarin generieke richtlijnen zijn opgesteld over hoe een datamodel moet worden opgesteld. Deze generieke richtlijnen zijn in de meeste gevallen toereikend, maar specifieke data vraagt vaak ook om specifieke oplossingen.
Zolang er goed is nagedacht over waarom er een specifieke oplossing nodig is voor die data – en waarom er dus afgeweken wordt van de generiek voorgeschreven oplossing – kan dat prima passen binnen een volwassen data architectuur.
Advies nodig?
Wil je starten met het gestructureerd opslaan van je data of zie je ruimte tot verbetering van je huidige architectuur? We denken graag met je mee! Neem direct contact met ons op.
Dit is een artikel van Victor van den Broek, Senior Data Science Engineer, Digital Power
Victor is een ervaren Data Scientist met scherpe business focus. Vanuit zijn ondernemende achtergrond is hij altijd op zoek naar de toepassing van data in je bedrijfsprocessen en hoe je daar maximaal waarde uit kan halen, terwijl de organisatie flexibel en wendbaar blijft.
Data Scientistvictor.vandenbroek@digital-power.com
1x per maand data insights, praktijkcases en een kijkje achter de schermen ontvangen?
Meld je aan voor onze maillijst en blijf 'up to data':