Skip to content

DealRoom

HOME / KLANTCASES / DEALROOM

Een volledig gedocumenteerd, toekomstbestendig Python script voor de samenvoeging van offline databases

DealRoom verzamelt data van start-ups voor investeringsmaatschappijen en banken. Naast adresdata verzamelen ze data over investeringsrondes, werknemers en websiteverkeer. Op basis van de wensen van de klant, halen ze suggesties voor goede investeringen uit hun database. Om deze database (van 500.000 records) te verrijken, schafte DealRoom een database (van 700.000 records) aan bij een externe partij. Ze riepen onze hulp in om beide databases samen te voegen.

Onze aanpak

Om de databases samen te voegen, moesten de velden in beide databases gematcht worden. We schreven eerst een test script wat de databases vergeleek op basis van één veld. Zo werden er 40.000 matches gevonden.

Er waren meerdere uitdagingen bij het samenvoegen van de twee databases:

  • We moesten bepalen welke waardes worden gebruikt als in beide databases het veld gevuld is.
  • Er werden verschillende definities gebruikt voor dezelfde waarden (bijvoorbeeld ‘bedrijfsnaam’ en ‘bedrijf’).
  • De veldnamen verschilden in veel gevallen (bijvoorbeeld bedrijfsnamen met of zonder ‘B.V.’ als toevoeging).
  • De databases hadden beiden een verschillende structuur.

In samenwerking met DealRoom stelden we de regels op waaraan waardes moesten voldoen om de databases samen te kunnen voegen. Vervolgens schreven we een Python script in Jupyter Notebook wat de databases koppelde op basis van de velden website, bedrijfsnaam en land. Hierbij documenteerden we elke regel zorgvuldig. Een voorbeeld van zo’n regel is bijvoorbeeld: “Wanneer bij beide databases het veld ‘website’ is ingevuld, wordt de meest recente waarde ingevuld.’ Op deze manier werden er 150.000 matches gevonden. 110.000 meer dan bij het test script!

Het resultaat

Doordat we de totstandkoming van het Python script volledig hebben gedocumenteerd, kan DealRoom het in de toekomst ook gebruiken.

Wanneer één van de huidige databases wordt geüpdatet, kan hetzelfde script gedraaid worden en aangepast waar nodig. Dit is erg belangrijk voor DealRoom omdat de data van start-ups snel veroudert en de datakwaliteit daarmee afneemt.

Onze Data Engineer heeft tijdens het proces een Franse werknemer van DealRoom getraind. Dankzij deze training en de bijbehorende documentatie kan hij het verversen van de huidige setting verder zelf oppakken.

We werken onder andere voor

Meer weten?
Onze CEO René gaat graag met je in gesprek over wat we als datapartner van Nederland voor jou en je organisatie kunnen betekenen.