Een volledig geautomatiseerde data import pipeline

Stichting Donateursbelangen

  • Klantcase
  • Data Engineering
  • Dataprojecten
logo stichting Donateursbelangen
Marieke-voorzitter-digitalpower-datahub
Marieke Schulte
Voorzitter Digital Power Datahub
3 min
01 Mar 2023

Stichting Donateursbelangen wil het vertrouwen tussen donateurs en goede doelen versterken. Daarom wilden ze via een eigen zoekmachine informatie over goede doelen delen met donateurs. De stichting vroeg ons de ANBI-status van goede doelen beschikbaar te stellen voor gebruik in hun zoekmachine. Een instelling krijgt deze status alleen als zij zich (bijna) volledig inzet voor het algemeen belang en zich aan bepaalde voorwaarden houdt.

Er was al gewerkt aan een eigen oplossing om wekelijks gegevens uit een openbare dataset van de website van de Belastingdienst te halen. Dit deden ze door de gegevens met behulp van Google Apps Script om te zetten naar een Google Sheet.

Ze vroegen ons met drie dingen aan de slag te gaan:

  • Het oplossen van enkele technische problemen in de huidige implementatie.
  • Het automatiseren van een wekelijkse update van de ANBI-tabel en documenteren wanneer er updates aan deze gegevens plaatsvonden.
  • Extra databronnen en data toevoegen aan het ANBI-overzicht.

Onze aanpak

In eerste instantie gingen we aan de slag met het oorspronkelijke verzoek. We losten technische problemen in de huidige implementatie op. De keuze voor Google Apps Script voor de implementatie riep ondertussen vragen bij ons op. Google App Scripts heeft beperkte mogelijkheden om data te importeren en transformeren. Hierdoor was het geen handige tool om de ANBI-tabel verder uit te breiden met informatie uit extra bronnen.

In overleg met Stichting Donateursbelangen kozen we ervoor een nieuwe implementatie te bouwen met een op Python gebaseerde tool. Dit was efficiënter dan verder bouwen op de bestaande implementatie. Python is namelijk een geschiktere taal om data te verwerken.

De nieuwe tool was, net als Google App Script, gratis en eenvoudig te onderhouden. We bouwden de implementatie in Google Cloud Platform met behulp van serverloze Python Cloud Functions in combinatie met Cloud Scheduler voor de automatische wekelijkse data import.

Het resultaat

Stichting Donateursbelangen heeft nu een volledig geautomatiseerde import pipeline met inzicht in de laatste ANBI status voor goede doelen. Geïnteresseerde donateurs kunnen deze informatie op hun website bekijken. De zoekfunctionaliteit op de website van de Belastingdienst is beperkt tot de zoektermen goede doelennaam of woonplaats. De zoekfunctionaliteit op de Stichting Donateursbelangen maakt het voor donateurs mogelijk om ANBI goede doelen te vinden op basis van naam, woonplaats, fiscaal nummer en URL.

quote Jordan

De toekomst

Stichting Donateursbelangen wil hun database en zoekmachine in de toekomst uit te breiden met aanvullende informatie over goede doelen. Door het gebruik van een Python-script via Google Cloud Functions en Cloud Scheduler kan dit makkelijk en snel geregeld worden.

Dit project voerden we uit via onze stichting, de Digital Power Datahub.

Meer weten over deze opdracht?

Marieke, voorzitter van de Digital Power Datahub gaat graag met je in gesprek over wat we als datapartner voor jou en je organisatie kunnen betekenen.

Marieke Schulte

Voorzitter Digital Power Datahub06 10 93 54 60marieke.schulte@digital-power.com

1x per maand data insights, praktijkcases en een kijkje achter de schermen ontvangen?

Meld je aan voor onze maillijst en blijf 'up to data':

Misschien vind je dit ook interessant:

Hoe word ik een Data Engineer?

Een paar jaar geleden bestond de functietitel nog niet eens: Data Engineer. Inmiddels is er veel vraag naar Data Engineers. Vrijwel elke organisatie verzamelt bewust data en het besef dat dit op een gestructureerde manier moet gebeuren, groeit. Als de data die je verzamelt niet goed georganiseerd is en klopt, kun je het niet gebruiken als input voor goede beslissingen. Data Engineers bouwen infrastructuren waarmee data wordt verwerkt. Ze zijn daarmee onmisbaar voor organisaties die hun data op een gestructureerde manier willen verzamelen en toepassen.

Lees meer
data geestelijke gezondheidszorg

Centrale dataopslag met een nieuwe data-infrastructuur

Dedimo is een samenwerking van vijf zorginitiatieven in de geestelijke gezondheidszorg. Om de kwaliteit van hun zorg continu te verbeteren, richten ze interne processen efficiënter in. Hiervoor gebruiken ze inzichten uit de data die intern beschikbaar is. Voorheen haalden ze deze data zelf uit verschillende bronsystemen met ad hoc scriptjes. Om dit proces robuuster en efficiënter te maken en verder te professionaliseren, schakelden ze onze hulp in. Ze vroegen ons de centrale opslag van hun data in een cloud data warehouse te faciliteren. Omdat ze al gewend waren te werken met Google Cloud Platform (GCP), was de wens de data-infrastructuur binnen deze omgeving op te zetten.

Lees meer
een dataplatform implementeren

Een dataplatform implementeren

Deze blog is bedoeld om onze kennis en ervaring over te dragen aan de gemeenschap door richtlijnen te beschrijven voor de implementatie van een dataplatform in een organisatie, gebaseerd op onze knowhow. We weten dat de specifieke behoeften van elke organisatie anders zijn, dat ze een impact zullen hebben op de gebruikte technologieën en dat één enkele architectuur die aan al deze behoeften voldoet, niet realistisch is. Daarom houden we het in deze blog zo algemeen mogelijk.

Lees meer

5 redenen om Infrastructure as Code (IaC) te gebruiken

Infrastructure as Code heeft zich bewezen als betrouwbare techniek om platformen sterk neer te zetten in de cloud. Het vraagt echter wel een extra tijdsinvestering van de betrokken ontwikkelaars. In welke gevallen loont de extra inspanning zich? Je leest het in dit artikel.

Lees meer
billboards

Een schaalbaar machine learning-platform voor het voorspellen van billboard-impressies

The Neuron biedt een programmatisch biedingsplatform om digitale Out-Of-Home-advertenties in realtime te plannen, kopen en beheren. Ze vroegen ons het aantal verwachte impressies voor digitale advertenties op billboards op een schaalbare en efficiënte manier te voorspellen.

Lees meer

Digitale transformatie en betere interne samenwerking dankzij inzicht in off- én online data

Uitgever Malmberg verzamelt veel off- en online data. Steeds meer onderwijsinstellingen maken gebruik van online licenties ter aanvulling op (of in plaats van) gedrukt lesmateriaal. Om hierop in te spelen, maakt Malmberg gebruik van maandelijkse rapportages. Het in-house data team stelt deze samen als input voor specifieke afdelingen. Malmberg vroeg ons dit team te versterken en de interne processen rondom data efficiënter te maken.

Lees meer
Data Engineer aan het werk

Data Engineer

Werk aan uitdagende technische opdrachten bij verschillende opdrachtgevers.

Lees meer
Data Engineering

Een loopbaan als Data Engineer? Geef je eigen opleiding vorm

In juni 2020 werd Sander onderdeel van ons team. Hoewel hij midden in coronatijd startte, merkte hij al snel dat hij flink gestimuleerd werd om contact te maken met zijn nieuwe collega’s. Dit ging grotendeels vanzelf als onderdeel van ons onboarding programma: “Dit sloot perfect aan bij mijn behoeftes: ik ben namelijk zelf veel collega’s gaan opbellen om kennis te maken!” Lees hoe Sander zijn eigen opleiding tot Data Engineer vormgeeft.

Lees meer
Data engineer Oskar in gesprek

5 vragen voor Data Engineer Oskar

In deze video ontdek je hoe een baan als Data Engineer eruit ziet! Hoe ziet een werkweek eruit, voor welke klanten werken onze Data Engineers en wat maakt het werken zo leuk? Oskar vertelt je er graag meer over!

Lees meer