Datakwaliteit: de basis voor effectief datagedreven werken
Antwoord op de belangrijkste vragen over datakwaliteit
- Artikel
- Data Engineering
Dataprojecten moeten vaak snel resultaat opleveren. Het vakgebied is relatief nieuw en om draagvlak te creëren, moet eerst bewezen worden dat het waarde oplevert. Hierdoor bouwen veel organisaties data-oplossingen zonder dat er goed nagedacht wordt over de robuustheid ervan. Met datakwaliteit wordt hierbij vaak onvoldoende rekening gehouden. Wat zijn de risico’s als je datakwaliteit niet op orde is en hoe kun je het verbeteren? Je leest het antwoord op de belangrijkste vragen over datakwaliteit in dit artikel.
Hoe belangrijk is datakwaliteit?
Om te bepalen hoe belangrijk het is om de kwaliteit van je data op orde te hebben, moet je je data zien in de context van je bedrijfsprocessen:
- Waarom hebben we deze data?
- Wat doen we ermee?
- Welke processen maken er gebruik van?
- Welke waarde levert het op?
Vanuit daar kun je nadenken over de mogelijke consequenties als er fouten in je data zitten. Denk hierbij aan missende waardes en waardes die niet kloppen. Wanneer je je data in die context ziet, is de vraag niet meer ‘Moet ik over datakwaliteit nadenken’ maar ‘Kan ik me veroorloven om het niet te doen?’.
Een recent onderzoek heeft aangetoond dat het gemiddeld aantal datakwaliteit-incidenten, de benodigde tijd om ze te detecteren, en de tijd om ze op te lossen allemaal omhoog zijn gegaan ten opzichte van vorig jaar. Tegelijkertijd is de geschatte impact van problemen met datakwaliteitop zowel business stakeholders als op omzet omhooggegaan door de toename in datagedreven werken.
Wat zijn de risico’s en consequenties van slechte kwaliteit data?
Het is ingewikkeld om de risico’s van een slechte datakwaliteit in te schatten. Hiervoor moeten de business en technische kant van je organisatie goed met elkaar in gesprek. De business weet wat de waarde van bepaalde data is en hoe de processen lopen. De technische mensen hebben vaak beter inzicht in hoe goed de datakwaliteit is. Samen kunnen ze inschatten welke data belangrijk is en waar de datakwaliteit echt op orde moet zijn.
Door goed met elkaar in gesprek te gaan, ontdek je dus waar het beter moet, maar ook waar je tijd en geld kunt besparen door niet te investeren in een hogere datakwaliteit. Van data die wordt gebruikt voor kritische beslissingen of processen, moet je zeker weten dat het klopt. Gebruik je een dataset bijvoorbeeld vooral om trends te analyseren? Dan is het minder erg als de data niet 100% op orde is. Denk bijvoorbeeld aan het verschil tussen kritieke data van overheden, pensioenfondsen en banken tegenover data als winkelverkoop en klantenservicedata.
Schat de risico’s en consequenties in door een aantal vragen te stellen:
- Wat kan er fout gaan?
- Wat zijn de gevolgen als het fout gaat?
- Hoe groot is de kans dat het fout gaat?
Pas je strategie voor datakwaliteit altijd aan op het type data en de risico’s. De investering om het op orde te krijgen én de datakwaliteit te borgen, moet wel in verhouding zijn. Vergeet overigens niet om je beslissingen rondom datakwaliteit goed te documenteren.
De datakwaliteit op orde: welke kansen biedt dat?
Wanneer je beslissingen maakt op basis van data die klopt, heb je meer vertrouwen in wat je beslist. Er is minder risico om verkeerde beslissingen te maken die gebaseerd zijn op foutieve informatie. Daarnaast creëer je meer draagvlak en vertrouwen voor datagedreven beslissingen als deze gemaakt worden op basis van aantoonbaar correcte data.
Met goede monitoring van datakwaliteit kun je ook eerder detecteren als er ergens iets misgaat. Als je exact kan zien uit welk proces of bron data komt met lage kwaliteit, kan dit probleem ook aangepakt worden bij de directe oorzaak. Hiermee verbeter je zowel je datakwaliteit als de onderliggende processen.
Enkele verdere voordelen van het toepassen van datakwaliteitsmanagement:
- Kostenbesparingen door het voorkomen van tijdrovende dataproblemen
- Het voorkomen van financiële en reputatieschade
- Nauwkeurigere en efficiëntere analyses
- Schaalbare en robuuste systemen
- Verhoogde omzet/winst door betere beslissingen
- Naleving van wetten en regelgeving op het gebied van datamanagement
Hoe geef je een strategie voor datakwaliteit vorm?
Stap 1 - Start met een assessment
Voordat je je strategie bepaalt, moet je bepalen waar je staat als organisatie. Start met een assessment om antwoord te krijgen op vragen als:
- Welke drijfveren hebben we om met datakwaliteit aan de slag te gaan?
- Wat is onze volwassenheid op het gebied van datakwaliteit?
- Hoe inzichtelijk is ons datalandschap en bijbehorende data lineage?
- Is er een overzicht van welke datasets er zijn?
- Door wie worden ze gebruikt?
- Wie is verantwoordelijk voor bepaalde datasets?
- Zijn er al bestaande richtlijnen op gebied van datakwaliteit en worden deze ook nageleefd?
- Bestaan er processen om de datakwaliteit te monitoren en problemen aan te pakken bij de bron?
Er zijn verschillende modellen die je hierbij kunnen helpen. Zoek naar iets wat aansluit op je organisatie en wat logische stappen heeft binnen jouw context. Als je nog op zoek bent naar een framework raden wij aan om als startpunt eens te kijken naar de Data Management Body of Knowledge van de Data Management Association (DAMA-DMBOK2). Dit is wereldwijd het meest gebruikte framework voor datamanagement. In het stuk over datakwaliteit worden hierin de belangrijkste dimensies van datakwaliteit omschreven en een lijst met acties om een datastrategie te definiëren en uit te voeren.
Stap 2 - Een overzicht van je as is en tobe
Wat is de huidige staat van datamanagement (as is) binnen je organisatie, waar wil je heen (tobe) en waarom wil je dat? Maak een business case en leg concreet uit welke waarde het toevoegt als de datakwaliteit op orde is. Geef ook inzicht in de risico’s en kansen. Je kunt hierbij zowel nieuwe business cases maken als onderzoeken waar een hogere datakwaliteit waarde kan toevoegen aan bestaande business cases.
Stap 3 - Bepaal wat het mag kosten en tot waar je wilt gaan
Je datakwaliteit hoeft niet meteen van 0 naar 100, je kunt ook stappen in de goede richting maken. Kijk kritisch naar de investering en naar wat het potentieel oplevert.
Zie het verbeteren van je datakwaliteit als een continu proces. In de ideale situatie is het nadenken over datakwaliteit altijd onderdeel van de vormgeving van nieuwe bedrijfsprocessen, systemen en oplossingen. Het helpt hierbij enorm als je je datastrategie al bepaald hebt. Aan de hand hiervan weet je welke stappen je moet nemen op het gebied van datakwaliteit.
Hoe maak je tijd om datakwaliteit aan te pakken?
Goede dataprofessionals zijn schaars en datateams zijn vaak al erg druk. Door slim om te gaan met de technische capaciteit in je team, kun je veel gedaan krijgen. Wij geven twee tips!
Tip 1: Zorg ervoor dat er mensen verantwoordelijk zijn voor de datasets binnen je organisatie
Het thema datakwaliteit komt momenteel vaak bij de Data Engineer terecht. In de praktijk moet bij voorkeur juist niet een technisch iemand verantwoordelijk zijn voor een dataset. De inhoud moet vooral kloppen met het businessproces wat het ondersteunt. Technische collega’s bouwen de checks en monitoren processen, maar zijn niet altijd in de beste positie om in te schatten hoe hoog de datakwaliteit moet zijn. Een business stakeholder kan dit beter beoordelen.
Op deze manier kunnen technische mensen, zoals je Data Engineers, zich meer bezighouden met hun eigen expertise. Zij ontwerpen en implementeren bijvoorbeeld de datastromen en zorgen dat de gedefinieerde kwaliteitschecks op de juiste manier geïmplementeerd worden in het systeem.
Tip 2: Gebruik handige tools en services
Om het werk van schaarse technische mensen efficiënter te maken, worden er steeds meer tools en services ontwikkeld waarmee je relatief eenvoudig datakwaliteitschecks kunt opzetten. Deze kun je bijvoorbeeld gebruiken om de datakwaliteit te checken op een specifiek moment. Zijn er missende waardes? Worden de juiste datatypen gebruikt? Waar komt de data precies vandaan (data lineage) en wat is er beschikbaar (data catalogi)?
Voorbeelden van tools die momenteel veel gebruikt worden voor het implementeren van datakwaliteit zijn Soda, Great Expectations en dbt. De juiste keuze voor een tool hangt sterk af van het ontwerp van je data-applicaties, de gebruikte technologieën en de expertise van je data team. Voor het introduceren en op peil houden van datakwaliteitschecks is het uitermate belangrijk dat de gebruikte tools goed aansluiten op de huidige systemen en manier van werken.
Een tweede grote ontwikkeling is het gebruik van generative AI. Meerdere datakwaliteitsservices beginnen dit te introduceren. Met behulp van AI kun je in normale taal definiëren wat de check moet zijn. De tool genereert vervolgens een check voor je. Zo worden programmatische werkzaamheden versimpeld.
Dit soort tools en services nemen het werk van Data Engineers deels uit handen. Het is ontzettend belangrijk dat iemand met technische kennis verifieert of de juiste tests zijn geïmplementeerd en dat een test doet wat hij moet doen. Deze kennis wordt daarom alleen maar waardevoller.
Moet het verbeteren van de datakwaliteit hoger op de prioriteitenlijst?
Het verbeteren van de datakwaliteit binnen je organisatie stond voordat je dit artikel las mogelijk niet boven aan je prioriteitenlijst. Je datateam is immers al druk genoeg! Het is echter belangrijk om je te realiseren dat het veel tijd kost als je data niet klopt.
Naarmate je pipelines en datalandschap complexer en uitgebreider worden, wordt het steeds lastiger en tijdrovender om datakwaliteitsissues op te sporen en op te lossen. Al deze tijd gaat ten koste van nieuwe ontwikkelingen die meer impact en businesswaarde zouden leveren.
Door je processen rondom datakwaliteit op orde te brengen, minimaliseer je deze moeite en ontwikkel je een robuuster, schaalbaarder en beter onderhoudbaar systeem. De verbetering van je datakwaliteit vraagt dus om investering van tijd, maar kan op de langere termijn dus juist een boel tijd besparen.
We helpen je graag!
Staat datakwaliteit hoog op je agenda? Onze dataconsultants helpen je bij elke stap van het proces. Denk hierbij aan de vormgeving van je datastrategie, analyses van je datastromen en het bepalen van de datakwaliteitseisen die daarbij passen.
Ook kunnen we de technische implementatie voor je uit handen nemen. We doen checks op je bestaande data warehouse en richten de datakwaliteit en governance binnen je bestaande omgeving in, of zetten een geheel nieuwe data-infrastructuur voor je op. Ook helpen we je graag bij de keuze voor de juiste tool of service om op jouw gewenste niveau te komen.
Dit is een artikel van Kasper Soekarjo, Solution Architect bij Digital Power
Kasper Soekarjo is Solution Architect bij Digital Power. Hij verenigt ruime kennis in data engineering met sterke sociale vaardigheden. Dit stelt hem in staat om in nauwe samenwerking met de klant technische oplossingen te ontwerpen die exact aansluiten op zowel de technische als zakelijke eisen van het project.
1x per maand data insights, praktijkcases en een kijkje achter de schermen ontvangen?
Meld je aan voor onze maillijst en blijf 'up to data':