Verbeterde datakwaliteit dankzij een nieuwe data pipeline

Waterschap Aa en Maas:

  • Klantcase
  • Data Engineering
  • Dataconsultancy
  • Dataprojecten
meer
Waterschap Aa en Maas
Zev-business-manager
Zev Posma
Business Manager
3 min
03 Jun 2022

Royal HaskoningDHV ziet het aantal aanvragen van klanten met Data Engineering vraagstukken toenemen. De nieuwe afdeling die ze hiervoor op hebben gericht, is nog groeiende. Ze vroegen ons daarom hun Data Engineering team tijdelijk extra capaciteit te bieden. Één van de vraagstukken waar wij hulp bij boden, was die van Waterschap Aa en Maas.

De hydrologen van Waterschap Aa en Maas maken voor hun werk gebruik van veel verschillende databases. Één van die databases bevat data van sensormetingen, bijvoorbeeld van het waterpeil op verschillende plekken in de regio. Het was niet zeker of deze data altijd klopte. Ze vroegen Royal HaskoningDHV een validatieslag te maken en de datakwaliteit op orde te brengen. Zo kunnen de sensormetingen verbeterd worden en kan het Waterschap defecte sensoren repareren.

Onze aanpak

Waterschap Aa en Maas had al de beschikking over een dataplatform in Azure. In opdracht van Royal HaskoningDHV ontwikkelden we een extra data pipeline die met het bestaande platform geïntegreerd kan worden. 

We startten met de ontsluiting van de data uit de database via Azure Data Factory. Hiervoor maakten we gebruik van het gelaagde systeem in het data lake. Via de drie lagen bronze, silver en gold wordt de ruwe data steeds verder opgeschoond en verrijkt:

  • In de bronze laag maken we de data bruikbaar voor de structuur van het bestaande dataplatform. Dit houdt in dat de ruwe data wordt omgezet naar een tabelstructuur. Hiervoor gebruikten we Databricks en programmeerden we in PySpark.
  • In de silver laag valideren we de datakwaliteit. Hiervoor gebruiken we een Python library gemaakt door RHDHV. Deze bevat meerdere data science componenten, waaronder een functionaliteit om data validatie uit te voeren. We verzamelen de data van 90 sensoren die elk kwartier een meting doen. Op elk van die metingen worden zes kwaliteitslabels toegevoegd. Hiermee worden er naar zes mogelijke problemen met de data gekeken. Staat één van deze zes labels op true, dan is dit een indicatie dat er iets mis is met de data.
  • In de gold laag zetten we de data om naar een XML-format. Zo kan de data weer terug naar de originele database, die enkel data in dit format kan ontvangen. Op deze manier kunnen we de verrijkte data dus toevoegen in de database. De bestanden worden vervolgens verplaatst naar de serving layer van het data lake. De beheerders van de database hebben toegang tot deze laag, zodat ze de verrijkte data op kunnen halen.

Bij de ontwikkeling van de data pipeline pakten we nog een aantal extra zaken op om de robuustheid van de pipeline te vergroten:

  • We logden welke sensoren op welk moment door het verrijkingsproces gaan. Zo kun je altijd terugzien wanneer het model gedraaid heeft en welke sensoren en tijdsreeksen gevalideerd zijn.
  • We boden inzicht in veranderingen in de metadata van de sensoren. Bij elke run wordt nu de metadata van de sensor data gesplitst en wordt automatisch gecheckt of er iets veranderd is aan de eigenschappen van de sensor (Slowly Changing Dimensions (SCD-II)).
  • In het dataplatform wordt de data dagelijks verwerkt. We bouwden een aparte pipeline waarmee het mogelijk is historische data op te halen van specifieke sensoren. Zo is diepgaande analyse ook mogelijk.

Het resultaat

Na het doorlopen van de bronze, silver en gold laag, gaat de data weer terug naar de originele database. De data is dan volledig gevalideerd en verrijkt. De klant kan precies zien welke data helemaal goed is en welke data fouten kan bevatten. 

RoyalHaskoning DHV bewees dat het technisch mogelijk is de datakwaliteit van Waterschap Aa en Maas op orde te brengen. Hier leverden wij een belangrijke bijdrage aan. We testten de pipeline voor 90 sensoren en bouwden een volledig schaalbaar proces zodat er in de toekomst makkelijk opgeschaald kan worden.

opzet van de data architectuur
opzet van de data architectuur

Meer weten?

Zev vertelt je graag meer over onze bijdrage aan dit dataproject.

1x per maand data insights, praktijkcases en een kijkje achter de schermen ontvangen?

Meld je aan voor onze maillijst en blijf 'up to data':

Dit vind je misschien ook interessant

Digitale transformatie en betere interne samenwerking dankzij inzicht in off- én online data

Uitgever Malmberg verzamelt veel off- en online data. Steeds meer onderwijsinstellingen maken gebruik van online licenties ter aanvulling op (of in plaats van) gedrukt lesmateriaal. Om hierop in te spelen, maakt Malmberg gebruik van maandelijkse rapportages. Het in-house data team stelt deze samen als input voor specifieke afdelingen. Malmberg vroeg ons dit team te versterken en de interne processen rondom data efficiënter te maken.

Lees meer
Data Engineer aan het werk

Jouw Data Engineering partner

Genereer betrouwbare en betekenisvolle inzichten uit een solide, veilige en schaalbare infrastructuur. Ons team van 25+ Data Engineers staat klaar om jouw dataproducten en -infrastructuur end-to-end te implementeren, te onderhouden én te optimaliseren.

Lees meer
fysioholland data

Een goed georganiseerde data-infrastructuur

FysioHolland is een overkoepelende organisatie voor fysiotherapeuten in Nederland. Een centraal serviceteam ontlast therapeuten van bijkomende werkzaamheden, zodat zij zich vooral kunnen focussen op het leveren van de beste zorg. Naast de organische groei sluit FysioHolland nieuwe praktijken aan bij de organisatie. Deze hebben stuk voor stuk hun eigen systemen, werkprocessen en behandelcodes. Dit heeft de datahuishouding van FysioHolland groot en complex gemaakt.

Lees meer
Data Engineer aan het werk

Data Engineer

Werk aan uitdagende technische opdrachten bij verschillende opdrachtgevers.

Lees meer
data geestelijke gezondheidszorg

Centrale dataopslag met een nieuwe data-infrastructuur

Dedimo is een samenwerking van vijf zorginitiatieven in de geestelijke gezondheidszorg. Om de kwaliteit van hun zorg continu te verbeteren, richten ze interne processen efficiënter in. Hiervoor gebruiken ze inzichten uit de data die intern beschikbaar is. Voorheen haalden ze deze data zelf uit verschillende bronsystemen met ad hoc scriptjes. Om dit proces robuuster en efficiënter te maken en verder te professionaliseren, schakelden ze onze hulp in. Ze vroegen ons de centrale opslag van hun data in een cloud data warehouse te faciliteren. Omdat ze al gewend waren te werken met Google Cloud Platform (GCP), was de wens de data-infrastructuur binnen deze omgeving op te zetten.

Lees meer

5 redenen om Infrastructure as Code (IaC) te gebruiken

Infrastructure as Code heeft zich bewezen als betrouwbare techniek om platformen sterk neer te zetten in de cloud. Het vraagt echter wel een extra tijdsinvestering van de betrokken ontwikkelaars. In welke gevallen loont de extra inspanning zich? Je leest het in dit artikel.

Lees meer
billboards

Een schaalbaar machine learning-platform voor het voorspellen van billboard-impressies

The Neuron biedt een programmatisch biedingsplatform om digitale Out-Of-Home-advertenties in realtime te plannen, kopen en beheren. Ze vroegen ons het aantal verwachte impressies voor digitale advertenties op billboards op een schaalbare en efficiënte manier te voorspellen.

Lees meer

Waarom heb ik Data Engineers nodig als ik Data Scientists heb?

Inmiddels is het bij de meeste bedrijven wel duidelijk: datagedreven beslissingen door Data Science voegen concreet waarde toe aan de bedrijfsvoering. Of je doel nu is om betere marketingcampagnes op te zetten, preventief onderhoud aan je machines uit te voeren of fraude effectiever te bestrijden: in elke bedrijfstak zijn er toepassingen van Data Science te vinden.

Lees meer

5 vragen aan Data Engineer Dennis

In deze video ontdek je hoe een baan als Data Engineer eruit ziet! Hoe ziet een werkweek eruit, voor welke klanten werken onze Data Engineers en wat maakt het werken zo leuk? Dennis vertelt je er graag meer over!

Lees meer