Datakwaliteit: de basis voor effectief datagedreven werken

Antwoord op de belangrijkste vragen over datakwaliteit

  • Artikel
  • Data Engineering
Kasper Soekarjo
Kasper Soekarjo
Solution Architect
5 min
01 Aug 2023

Dataprojecten moeten vaak snel resultaat opleveren. Het vakgebied is relatief nieuw en om draagvlak te creëren, moet eerst bewezen worden dat het waarde oplevert. Hierdoor bouwen veel organisaties data-oplossingen zonder dat er goed nagedacht wordt over de robuustheid ervan. Met datakwaliteit wordt hierbij vaak onvoldoende rekening gehouden. Wat zijn de risico’s als je datakwaliteit niet op orde is en hoe kun je het verbeteren? Je leest het antwoord op de belangrijkste vragen over datakwaliteit in dit artikel.

Hoe belangrijk is datakwaliteit? 

Om te bepalen hoe belangrijk het is om de kwaliteit van je data op orde te hebben, moet je je data zien in de context van je bedrijfsprocessen:

  • Waarom hebben we deze data?
  • Wat doen we ermee?
  • Welke processen maken er gebruik van?
  • Welke waarde levert het op?

Vanuit daar kun je nadenken over de mogelijke consequenties als er fouten in je data zitten. Denk hierbij aan missende waardes en waardes die niet kloppen. Wanneer je je data in die context ziet, is de vraag niet meer ‘Moet ik over datakwaliteit nadenken’ maar ‘Kan ik me veroorloven om het niet te doen?’.

Een recent onderzoek heeft aangetoond dat het gemiddeld aantal datakwaliteit-incidenten, de benodigde tijd om ze te detecteren, en de tijd om ze op te lossen allemaal omhoog zijn gegaan ten opzichte van vorig jaar. Tegelijkertijd is de geschatte impact van problemen met datakwaliteitop zowel business stakeholders als op omzet omhooggegaan door de toename in datagedreven werken.

Wat zijn de risico’s en consequenties van slechte kwaliteit data?

Het is ingewikkeld om de risico’s van een slechte datakwaliteit in te schatten. Hiervoor moeten de business en technische kant van je organisatie goed met elkaar in gesprek. De business weet wat de waarde van bepaalde data is en hoe de processen lopen. De technische mensen hebben vaak beter inzicht in hoe goed de datakwaliteit is. Samen kunnen ze inschatten welke data belangrijk is en waar de datakwaliteit echt op orde moet zijn.

Door goed met elkaar in gesprek te gaan, ontdek je dus waar het beter moet, maar ook waar je tijd en geld kunt besparen door niet te investeren in een hogere datakwaliteit. Van data die wordt gebruikt voor kritische beslissingen of processen, moet je zeker weten dat het klopt. Gebruik je een dataset bijvoorbeeld vooral om trends te analyseren? Dan is het minder erg als de data niet 100% op orde is. Denk bijvoorbeeld aan het verschil tussen kritieke data van overheden, pensioenfondsen en banken tegenover data als winkelverkoop en klantenservicedata.

Schat de risico’s en consequenties in door een aantal vragen te stellen:

  • Wat kan er fout gaan?
  • Wat zijn de gevolgen als het fout gaat?
  • Hoe groot is de kans dat het fout gaat?

Pas je strategie voor datakwaliteit altijd aan op het type data en de risico’s. De investering om het op orde te krijgen én de datakwaliteit te borgen, moet wel in verhouding zijn. Vergeet overigens niet om je beslissingen rondom datakwaliteit goed te documenteren.

De datakwaliteit op orde: welke kansen biedt dat?

Wanneer je beslissingen maakt op basis van data die klopt, heb je meer vertrouwen in wat je beslist. Er is minder risico om verkeerde beslissingen te maken die gebaseerd zijn op foutieve informatie. Daarnaast creëer je meer draagvlak en vertrouwen voor datagedreven beslissingen als deze gemaakt worden op basis van aantoonbaar correcte data.

Met goede monitoring van datakwaliteit kun je ook eerder detecteren als er ergens iets misgaat. Als je exact kan zien uit welk proces of bron data komt met lage kwaliteit, kan dit probleem ook aangepakt worden bij de directe oorzaak. Hiermee verbeter je zowel je datakwaliteit als de onderliggende processen.

Enkele verdere voordelen van het toepassen van datakwaliteitsmanagement:

  • Kostenbesparingen door het voorkomen van tijdrovende dataproblemen
  • Het voorkomen van financiële en reputatieschade
  • Nauwkeurigere en efficiëntere analyses
  • Schaalbare en robuuste systemen
  • Verhoogde omzet/winst door betere beslissingen
  • Naleving van wetten en regelgeving op het gebied van datamanagement

Hoe geef je een strategie voor datakwaliteit vorm?

Stap 1 - Start met een assessment

Voordat je je strategie bepaalt, moet je bepalen waar je staat als organisatie. Start met een assessment om antwoord te krijgen op vragen als:

  • Welke drijfveren hebben we om met datakwaliteit aan de slag te gaan?
  • Wat is onze volwassenheid op het gebied van datakwaliteit?
  • Hoe inzichtelijk is ons datalandschap en bijbehorende data lineage?
  • Is er een overzicht van welke datasets er zijn?
  • Door wie worden ze gebruikt?
  • Wie is verantwoordelijk voor bepaalde datasets?
  • Zijn er al bestaande richtlijnen op gebied van datakwaliteit en worden deze ook nageleefd?
  • Bestaan er processen om de datakwaliteit te monitoren en problemen aan te pakken bij de bron?

Er zijn verschillende modellen die je hierbij kunnen helpen. Zoek naar iets wat aansluit op je organisatie en wat logische stappen heeft binnen jouw context. Als je nog op zoek bent naar een framework raden wij aan om als startpunt eens te kijken naar de Data Management Body of Knowledge van de Data Management Association (DAMA-DMBOK2). Dit is wereldwijd het meest gebruikte framework voor datamanagement. In het stuk over datakwaliteit worden hierin de belangrijkste dimensies van datakwaliteit omschreven en een lijst met acties om een datastrategie te definiëren en uit te voeren. 

Stap 2 - Een overzicht van je as is en tobe

Wat is de huidige staat van datamanagement (as is) binnen je organisatie, waar wil je heen (tobe) en waarom wil je dat? Maak een business case en leg concreet uit welke waarde het toevoegt als de datakwaliteit op orde is. Geef ook inzicht in de risico’s en kansen. Je kunt hierbij zowel nieuwe business cases maken als onderzoeken waar een hogere datakwaliteit waarde kan toevoegen aan bestaande business cases.

Stap 3 - Bepaal wat het mag kosten en tot waar je wilt gaan

Je datakwaliteit hoeft niet meteen van 0 naar 100, je kunt ook stappen in de goede richting maken. Kijk kritisch naar de investering en naar wat het potentieel oplevert.

Zie het verbeteren van je datakwaliteit als een continu proces. In de ideale situatie is het nadenken over datakwaliteit altijd onderdeel van de vormgeving van nieuwe bedrijfsprocessen, systemen en oplossingen. Het helpt hierbij enorm als je je datastrategie al bepaald hebt. Aan de hand hiervan weet je welke stappen je moet nemen op het gebied van datakwaliteit.

Hoe maak je tijd om datakwaliteit aan te pakken?

Goede dataprofessionals zijn schaars en datateams zijn vaak al erg druk. Door slim om te gaan met de technische capaciteit in je team, kun je veel gedaan krijgen. Wij geven twee tips!

Tip 1: Zorg ervoor dat er mensen verantwoordelijk zijn voor de datasets binnen je organisatie

Het thema datakwaliteit komt momenteel vaak bij de Data Engineer terecht. In de praktijk moet bij voorkeur juist niet een technisch iemand verantwoordelijk zijn voor een dataset. De inhoud moet vooral kloppen met het businessproces wat het ondersteunt. Technische collega’s bouwen de checks en monitoren processen, maar zijn niet altijd in de beste positie om in te schatten hoe hoog de datakwaliteit moet zijn. Een business stakeholder kan dit beter beoordelen.

Op deze manier kunnen technische mensen, zoals je Data Engineers, zich meer bezighouden met hun eigen expertise. Zij ontwerpen en implementeren bijvoorbeeld de datastromen en zorgen dat de gedefinieerde kwaliteitschecks op de juiste manier geïmplementeerd worden in het systeem. 

Tip 2: Gebruik handige tools en services

Om het werk van schaarse technische mensen efficiënter te maken, worden er steeds meer tools en services ontwikkeld waarmee je relatief eenvoudig datakwaliteitschecks kunt opzetten. Deze kun je bijvoorbeeld gebruiken om de datakwaliteit te checken op een specifiek moment. Zijn er missende waardes? Worden de juiste datatypen gebruikt? Waar komt de data precies vandaan (data lineage) en wat is er beschikbaar (data catalogi)?

Voorbeelden van tools die momenteel veel gebruikt worden voor het implementeren van datakwaliteit zijn Soda, Great Expectations en dbt. De juiste keuze voor een tool hangt sterk af van het ontwerp van je data-applicaties, de gebruikte technologieën en de expertise van je data team. Voor het introduceren en op peil houden van datakwaliteitschecks is het uitermate belangrijk dat de gebruikte tools goed aansluiten op de huidige systemen en manier van werken.

Een tweede grote ontwikkeling is het gebruik van generative AI. Meerdere datakwaliteitsservices beginnen dit te introduceren. Met behulp van AI kun je in normale taal definiëren wat de check moet zijn. De tool genereert vervolgens een check voor je. Zo worden programmatische werkzaamheden versimpeld.

Dit soort tools en services nemen het werk van Data Engineers deels uit handen. Het is ontzettend belangrijk dat iemand met technische kennis verifieert of de juiste tests zijn geïmplementeerd en dat een test doet wat hij moet doen. Deze kennis wordt daarom alleen maar waardevoller.

Moet het verbeteren van de datakwaliteit hoger op de prioriteitenlijst?

Het verbeteren van de datakwaliteit binnen je organisatie stond voordat je dit artikel las mogelijk niet boven aan je prioriteitenlijst. Je datateam is immers al druk genoeg! Het is echter belangrijk om je te realiseren dat het veel tijd kost als je data niet klopt.

Naarmate je pipelines en datalandschap complexer en uitgebreider worden, wordt het steeds lastiger en tijdrovender om datakwaliteitsissues op te sporen en op te lossen. Al deze tijd gaat ten koste van nieuwe ontwikkelingen die meer impact en businesswaarde zouden leveren.

Door je processen rondom datakwaliteit op orde te brengen, minimaliseer je deze moeite en ontwikkel je een robuuster, schaalbaarder en beter onderhoudbaar systeem. De verbetering van je datakwaliteit vraagt dus om investering van tijd, maar kan op de langere termijn dus juist een boel tijd besparen.

We helpen je graag!

Staat datakwaliteit hoog op je agenda? Onze dataconsultants helpen je bij elke stap van het proces. Denk hierbij aan de vormgeving van je datastrategie, analyses van je datastromen en het bepalen van de datakwaliteitseisen die daarbij passen. 

Ook kunnen we de technische implementatie voor je uit handen nemen. We doen checks op je bestaande data warehouse en richten de datakwaliteit en governance binnen je bestaande omgeving in, of zetten een geheel nieuwe data-infrastructuur voor je op. Ook helpen we je graag bij de keuze voor de juiste tool of service om op jouw gewenste niveau te komen.

Dit is een artikel van Kasper Soekarjo, Solution Architect bij Digital Power

Kasper Soekarjo is Solution Architect bij Digital Power. Hij verenigt ruime kennis in data engineering met sterke sociale vaardigheden. Dit stelt hem in staat om in nauwe samenwerking met de klant technische oplossingen te ontwerpen die exact aansluiten op zowel de technische als zakelijke eisen van het project.

Kasper Soekarjo

Solution Architect

1x per maand data insights, praktijkcases en een kijkje achter de schermen ontvangen?

Meld je aan voor onze maillijst en blijf 'up to data':

Misschien vind je dit ook interessant:

Azure App functions configureren

In dit Engelstalige artikel beginnen we met het bespreken van Serverless Functions. Vervolgens demonstreren we hoe je Terraform-bestanden gebruikt om het implementatieproces van een doelinfrastructuur te vereenvoudigen, hoe een Function App in Azure kan worden gemaakt, het gebruik van GitHub-workflows om continuous integration en implementatie te beheren, en hoe branching strategieën kunnen worden gebruikt om code wijzigingen selectief uit te rollen naar specifieke instanties van Function Apps.

Lees meer

Hoe word ik een Data Engineer?

Een paar jaar geleden bestond de functietitel nog niet eens: Data Engineer. Inmiddels is er veel vraag naar Data Engineers. Vrijwel elke organisatie verzamelt bewust data en het besef dat dit op een gestructureerde manier moet gebeuren, groeit. Als de data die je verzamelt niet goed georganiseerd is en klopt, kun je het niet gebruiken als input voor goede beslissingen. Data Engineers bouwen infrastructuren waarmee data wordt verwerkt. Ze zijn daarmee onmisbaar voor organisaties die hun data op een gestructureerde manier willen verzamelen en toepassen.

Lees meer
people working together

Het all-round profiel van de moderne data engineer

Sinds de opkomst van big data zijn veel elementen van de moderne datastack de verantwoordelijkheid geworden van data engineers. Wat zijn deze elementen en hoe moet je je datateam samenstellen?

Lees meer

Het belang van datakwaliteit

Ga je beslissingen maken op basis van data? Dan moet je ervoor zorgen dat je datakwaliteit op orde is. Goede documentatie volgens een helder proces is hierbij essentieel. Waarom en hoe? Je leest het in dit artikel.

Lees meer
data geestelijke gezondheidszorg

Centrale dataopslag met een nieuwe data-infrastructuur

Dedimo is een samenwerking van vijf zorginitiatieven in de geestelijke gezondheidszorg. Om de kwaliteit van hun zorg continu te verbeteren, richten ze interne processen efficiënter in. Hiervoor gebruiken ze inzichten uit de data die intern beschikbaar is. Voorheen haalden ze deze data zelf uit verschillende bronsystemen met ad hoc scriptjes. Om dit proces robuuster en efficiënter te maken en verder te professionaliseren, schakelden ze onze hulp in. Ze vroegen ons de centrale opslag van hun data in een cloud data warehouse te faciliteren. Omdat ze al gewend waren te werken met Google Cloud Platform (GCP), was de wens de data-infrastructuur binnen deze omgeving op te zetten.

Lees meer
een dataplatform implementeren

Een dataplatform implementeren

Deze blog is bedoeld om onze kennis en ervaring over te dragen aan de gemeenschap door richtlijnen te beschrijven voor de implementatie van een dataplatform in een organisatie, gebaseerd op onze knowhow. We weten dat de specifieke behoeften van elke organisatie anders zijn, dat ze een impact zullen hebben op de gebruikte technologieën en dat één enkele architectuur die aan al deze behoeften voldoet, niet realistisch is. Daarom houden we het in deze blog zo algemeen mogelijk.

Lees meer

5 redenen om Infrastructure as Code (IaC) te gebruiken

Infrastructure as Code heeft zich bewezen als betrouwbare techniek om platformen sterk neer te zetten in de cloud. Het vraagt echter wel een extra tijdsinvestering van de betrokken ontwikkelaars. In welke gevallen loont de extra inspanning zich? Je leest het in dit artikel.

Lees meer
billboards

Een schaalbaar machine learning-platform voor het voorspellen van billboard-impressies

The Neuron biedt een programmatisch biedingsplatform om digitale Out-Of-Home-advertenties in realtime te plannen, kopen en beheren. Ze vroegen ons het aantal verwachte impressies voor digitale advertenties op billboards op een schaalbare en efficiënte manier te voorspellen.

Lees meer

Digitale transformatie en betere interne samenwerking dankzij inzicht in off- én online data

Uitgever Malmberg verzamelt veel off- en online data. Steeds meer onderwijsinstellingen maken gebruik van online licenties ter aanvulling op (of in plaats van) gedrukt lesmateriaal. Om hierop in te spelen, maakt Malmberg gebruik van maandelijkse rapportages. Het in-house data team stelt deze samen als input voor specifieke afdelingen. Malmberg vroeg ons dit team te versterken en de interne processen rondom data efficiënter te maken.

Lees meer
Data Engineer aan het werk

Data Engineer

Werk aan uitdagende technische opdrachten bij verschillende opdrachtgevers.

Lees meer
Data Engineering

Een loopbaan als Data Engineer? Geef je eigen opleiding vorm

In juni 2020 werd Sander onderdeel van ons team. Hoewel hij midden in coronatijd startte, merkte hij al snel dat hij flink gestimuleerd werd om contact te maken met zijn nieuwe collega’s. Dit ging grotendeels vanzelf als onderdeel van ons onboarding programma: “Dit sloot perfect aan bij mijn behoeftes: ik ben namelijk zelf veel collega’s gaan opbellen om kennis te maken!” Lees hoe Sander zijn eigen opleiding tot Data Engineer vormgeeft.

Lees meer
Data engineer Oskar in gesprek

5 vragen voor Data Engineer Oskar

In deze video ontdek je hoe een baan als Data Engineer eruit ziet! Hoe ziet een werkweek eruit, voor welke klanten werken onze Data Engineers en wat maakt het werken zo leuk? Oskar vertelt je er graag meer over!

Lees meer
meer

Verbeterde datakwaliteit dankzij een nieuwe data pipeline

Royal HaskoningDHV ziet het aantal aanvragen van klanten met Data Engineering vraagstukken toenemen. De nieuwe afdeling die ze hiervoor op hebben gericht, is nog groeiende. Ze vroegen ons daarom hun Data Engineering team tijdelijk extra capaciteit te bieden. Één van de vraagstukken waar wij hulp bij boden, was die van Waterschap Aa en Maas.

Lees meer