DealRoom: samenvoeging offline databases

Een volledig gedocumenteerd, toekomstbestendig Python script

dealroom_logo

DealRoom verzamelt data van start-ups voor investeringsmaatschappijen en banken. Naast adresdata verzamelen ze data over investeringsrondes, werknemers en websiteverkeer. Op basis van de wensen van de klant, halen ze suggesties voor goede investeringen uit hun database. Om deze database (van 500.000 records) te verrijken, schafte DealRoom een database (van 700.000 records) aan bij een externe partij. Ze riepen onze hulp in om beide databases samen te voegen.

Onze aanpak

Om de databases samen te voegen, moesten de velden in beide databases gematcht worden. Onze Data Scientist schreef eerst een test script wat de databases vergeleek op basis van één veld. Zo werden er 40.000 matches gevonden.

Er waren meerdere uitdagingen bij het samenvoegen van de twee databases:

  • We moesten bepalen welke waardes worden gebruikt als in beide databases het veld gevuld is.
  • Er werden verschillende definities gebruikt voor dezelfde waarden (bijvoorbeeld ‘bedrijfsnaam’ en ‘bedrijf’).
  • De veldnamen verschilden in veel gevallen (bijvoorbeeld bedrijfsnamen met of zonder ‘B.V.’ als toevoeging).
  • De databases hadden beiden een verschillende structuur.

In samenwerking met DealRoom stelde onze Data Scientist de regels op waaraan waardes moesten voldoen om de databases samen te kunnen voegen. Vervolgens schreef hij een Python script in Jupyter Notebook wat de databases koppelde op basis van de velden website, bedrijfsnaam en land. Hierbij documenteerde hij elke regel zorgvuldig. Een voorbeeld van zo’n regel is bijvoorbeeld: “Wanneer bij beide databases het veld ‘website’ is ingevuld, wordt de meest recente waarde ingevuld.’ Op deze manier werden er 150.000 matches gevonden. 110.000 meer dan bij het test script!

Het resultaat

Doordat onze Data Scientist de totstandkoming van het Python script volledig heeft gedocumenteerd, kan DealRoom het in de toekomst ook gebruiken.

Wanneer één van de huidige databases wordt geüpdatet, kan hetzelfde script gedraaid worden en aangepast waar nodig. Dit is erg belangrijk voor DealRoom omdat de data van start-ups snel veroudert en de datakwaliteit daarmee afneemt.

Onze Data Scientist heeft tijdens het proces een Franse werknemer van DealRoom getraind. Dankzij deze training en de bijbehorende documentatie kan hij het verversen van de huidige setting verder zelf oppakken.

Benieuwd naar de mogelijkheden van Data Science?

Data Science ligt tussen statistische methodologie, Computer Science en een scala aan andere toepassingen. We nemen je graag mee in de verschillende concepten binnen de Data Science en hoe deze worden toegepast binnen het bedrijfsleven.

Meld je aan voor de Introductietraining Data Science >

Meer weten over deze case? Neem contact op met René de Boer

digital-power-data-professionals-amsterdam

Een aantal van onze opdrachtgevers