Efficiënter werken dankzij migratie naar Databricks

Het Kadaster

Klantcase
Data Engineering
Dataconsultancy
B2B
Data warehousing

Joachim van Biemen

Commercial Manager Data Engineering

5 min

02 Apr 2024

Het Kadaster beschikt onder andere over complexe (geo)data van al het vastgoed in Nederland. Alle data wordt opgeslagen en verwerkt via een on-premise data warehouse in Postgres. Voor het onderhoud van dit warehouse zijn ze afhankelijk van een IT-partner. Het Kadaster wil kosten besparen en efficiënter gaan werken door te migreren naar een Databricks-omgeving. Ze vroegen ons te helpen bij de implementatie van dit data lakehouse in Microsoft Azure Cloud.

Aanpak

Samen met een intern techteam brachten we een aantal bestaande pipelines in kaart. We keken welke data er al beschikbaar was in Databricks via de Datahub en welke data we zelf konden inladen met behulp van Python code. Op basis hiervan definieerden we een aantal use cases waarvoor we vervolgens de Databricks structuur uitdachten. Zo maakten we gebruik van een Medallion Architecture en het dbt framework voor datatransformaties binnen Databricks. Stapsgewijs werkten we de use cases steeds verder uit tot het punt waarop ze de Postgres set-up konden vervangen.

Kadaster's architecture — A simplified architecture overview

Het Kadaster houdt onder andere bij of een woning een appartement, tussenwoning, hoekwoning, twee-onder-een-kap of vrijstaand huis is. Om dit te doen, wordt er gekeken hoe objecten zich tot elkaar verhouden op een kaart. Als je hiervoor alle woningen in Nederland met elkaar vergelijkt, is dit een zeer zware berekening. We deelden daarom de kaart van Nederland op in vakjes met elk een eigen index en vergeleken de woningen binnen die vakjes met elkaar. De benodigde berekening draait hierdoor in een paar uur in plaats van een hele dag. Een mooie efficiencyslag in zowel tijd als kosten.

We focusten ons op specifieke use cases die uitgerold kunnen worden voor alle teams binnen het Kadaster. Tijdens de uitwerking waren we daarom continu in gesprek met de cloudarchitecten van het Kadaster. We deelden best practices en zetten de data klaar voor de eindgebruikers. Dit zijn voornamelijk analisten die inzichten leveren aan klanten van het Kadaster. Om intern draagvlak te creëren en mensen enthousiast te maken voor het nieuwe platform, organiseerden we kennissessies.

Resultaat

Een aantal use cases is uitgewerkt en opgezet in Databricks. Deze vormen een blauwdruk voor de migratie van andere processen. We hielpen het Kadaster de migratie van hun infrastructuur naar de cloud te versnellen. De onderdelen die we opzetten in Databricks, kunnen vervolgens uitgezet worden in Postgres. Zo kan het Kadaster steeds meer kosten en tijd besparen.

Het verwerken van geodata op Databricks is een niche. Samen met Kadaster waren we pioniers op dit vlak: we moesten uitzoeken hoe je het efficiënt kan doen. In de Postgresomgeving waren veel geotransformaties standaard beschikbaar via Postgis, maar in Databricks zijn deze functionaliteiten nog in ontwikkeling. We maakten gebruik van de open-source extensie Mosaic en moesten gedurende het project vaak uitzoeken hoe we dezelfde transformaties konden doen in Databricks.

Belangrijk hierbij was dat we de organisatie meenamen in wat er al kan en wat er in de toekomst mogelijk wordt. We leidden het interne team op in de nieuwe werkwijze en leerden ze welke softwareprincipes we gebruikten in het ontwikkelproces.

Om ervoor te zorgen dat de kennis geborgd werd binnen het team, zetten we verschillende documentatiepagina’s op binnen de interne wiki-omgeving. Daarnaast gaven we tijdens het gehele project trainingen op het gebied van Python, dbt en Databricks om het kennisniveau van het team te verhogen.

1x per maand data insights, praktijkcases en een kijkje achter de schermen ontvangen?

Meld je aan voor onze maillijst en blijf 'up to data':

Aanmelden

Dit vind je misschien ook interessant:

Miljarden streams omgezet in bruikbare inzichten met een nieuw data- en analytics platform

Merlin is de grootste digitale muzieklicentiepartner voor onafhankelijke labels, distributeurs en andere rechthebbenden. De leden van Merlin vertegenwoordigen 15% van de wereldwijde markt voor muziekopnames. Het bedrijf heeft overeenkomsten met Apple, Facebook, Spotify, YouTube en 40 andere innovatieve digitale platforms over de hele wereld voor de opnames van haar leden. Het team van Merlin volgt betalingen en gebruiksrapporten van digitale partners nauwlettend en zorgt ervoor dat hun leden nauwkeurig, efficiënt en consistent worden betaald en van rapportages worden voorzien.

Lees meer

Waardevolle inzichten uit Microsoft Dynamics 365

Agrico is een coöperatie van aardappeltelers. Zij telen aardappels voor verschillende doeleinden zoals consumptie en het planten van toekomstige oogsten. Deze aardappels worden wereldwijd geëxporteerd via verschillende dochterondernemingen. Alle logistieke en operationele data wordt opgeslagen in hun ERP-systeem Microsoft Dynamics 365. Omdat dit systeem met zijn vele features erg complex is, is de data niet direct geschikt om te gebruiken voor rapportages. Agrico vroeg ons te helpen hun ERP-data inzichtelijk te maken en duidelijke rapportages te ontwikkelen.

Lees meer

Inzicht in de complete salesfunnel dankzij een datawarehouse met dbt

Onze consultants boeken de opdrachten die ze oppakken voor onze klanten in ons ERP AFAS. Als CRM gebruiken we HubSpot. Hierin zien we alle informatie die voorafgaand aan het tekenen van een samenwerkingsovereenkomst relevant is. Wanneer we een deal sluiten, gaat alle informatie uit HubSpot automatisch naar AFAS. HubSpot wordt dus vooral gebruikt voor het proces voordat we een samenwerking aangaan, AFAS juist voor de fase daarna. We wilden de inzet van onze mensen strakker plannen en onze financiële forecasts verbeteren. Daarom besloten we de data uit beide bronnen te koppelen en een datawarehouse op te zetten.

Lees meer

Een gestandaardiseerde manier van dataverwerking met behulp van dbt

Een van de grootste webwinkels van Nederland wilde een gestandaardiseerde manier van dataverwerking ontwikkelen binnen een van de datateams. Alle data werd opgeslagen in het schaalbare cloud datawarehouse Google BigQuery. Binnen dit platform waren grote hoeveelheden data beschikbaar op het gebied van orders, producten, marketing, retouren, klantcases en partners.

Lees meer

Betrouwbare rapportages met behulp van robuuste Python code

Het Nationaal Portaal Wegverkeersgegevens (NDW) is een waardevolle bron voor gemeenten, provincies en de rijksoverheid om inzicht te krijgen in verkeersstromen en de efficiëntie van de infrastructuur te verbeteren.

Lees meer

Opzet van een toekomstbestendige data-infrastructuur

Valk Exclusief is een keten van 4 sterren+ hotels en heeft 43 hotels in Nederland. De hotelketen wil gasten graag een persoonlijke ervaring bieden, zowel in het hotel als online.

Lees meer

Een schaalbaar dataplatform in Azure

TM Forum, een alliantie van meer dan 850 wereldwijde bedrijven, schakelde onze hulp in als datapartner om data gerelateerde uitdagingen te identificeren en op te lossen.

Lees meer

Een volledig geautomatiseerde data import pipeline

Stichting Donateursbelangen wil het vertrouwen tussen donateurs en goede doelen versterken. Daarom wilden ze via een eigen zoekmachine informatie over goede doelen delen met donateurs. De stichting vroeg ons de ANBI-status van goede doelen beschikbaar te stellen voor gebruik in hun zoekmachine. Een instelling krijgt deze status alleen als zij zich (bijna) volledig inzet voor het algemeen belang en zich aan bepaalde voorwaarden houdt.

Lees meer