Waarom heb ik Data Engineers nodig als ik Data Scientists heb?
Waar deze specialisten elkaar versterken
- Artikel
- Data Engineering
Inmiddels is het bij de meeste bedrijven wel duidelijk: datagedreven beslissingen door Data Science voegen concreet waarde toe aan de bedrijfsvoering. Of je doel nu is om betere marketingcampagnes op te zetten, preventief onderhoud aan je machines uit te voeren of fraude effectiever te bestrijden: in elke bedrijfstak zijn er toepassingen van Data Science te vinden.
En dan: eindelijk is het gelukt! Je hebt een team van Data Scientists, de eerste waardevolle inzichten over je bedrijf komen naar voren en misschien zijn zelfs de eerste modellen al ontwikkeld. Hoe dan ook, je bent klaar om nu die waardetoevoeging aan je bedrijf of afdeling te realiseren.
Waarom je Data Scientists ontevreden kunnen zijn
En dan stokt het toch. Het lukt niet goed om zaken in productie te krijgen, het loopt mis bij het onderhouden van de modellen of het verloop van je afdeling begint toe te nemen.
Het gebeurt regelmatig dat het werk van de Data Scientists nadat de eerste modellen in productie zijn genomen, vooral bestaat uit het onderhouden en retrainen van modellen. Natuurlijk is onderhoud nodig, maar regulier onderhoud zou geautomatiseerd moeten zijn. In de praktijk zien we nog vaak dat dit handmatig werk is voor het Data Science team, waarmee het werkplezier van dat team vermindert. Het gevolg? Je Data Scientists zoeken een andere baan en jij moet op zoek naar nieuwe mensen.
Wat doet een Data Scientist?
Data ophalen, data opschonen, het maken van scripts… dit is werk dat nagenoeg iedereen die met data werkt kan doen. Daarom beschouwt ook vrijwel iedere Data Scientist het als onderdeel van zijn of haar werk. Waar het weliswaar onderdeel is van het werk, moet de focus liggen op het onderzoeken van de data en het in kaart brengen van verbanden. Data Scientists halen verborgen signalen uit de data die niet eenvoudig te vinden zijn. Ze halen hun energie dan ook uit dat onderzoek en het uitvinden; niet uit het robuust maken of productiewaardig maken van programmatuur.
Waarom je Data Scientists én Data Engineers nodig hebt
Vergelijk het met het bouwen van een autofabriek. Er zijn ontwerpers die een prototype van een auto ontwikkelen. Hierbij wordt nagedacht over hoe de auto eruit moet zien, wat de auto moet kunnen, in welke prijsklasse de auto ongeveer moet komen etc. Dat is een heel ander vakgebied dan ervoor zorgen dat diezelfde auto ook in grote volume aantallen gebouwd kan worden in een fabriek.
Bij het bouwen in de autofabriek wordt nogmaals naar het originele prototype gekeken. Vervolgens worden er aanpassingen gedaan waarbij de auto niet substantieel verandert, maar wel beter en goedkoper gebouwd kan worden in de fabriek.
Data Scientists zijn in dit voorbeeld de ontwerpers van het prototype van de auto, en Data Engineers zijn de ontwerpers en bouwers van de fabriek. Beiden spelen een belangrijke rol om uiteindelijk de auto’s op de markt te krijgen: ze vullen elkaar aan.
Een Data Engineer kan een Data Scientist helpen door de volgende vraagstukken op te pakken:
- Hoe kan het model doorontwikkeld worden zodat het een robuuste oplossing wordt die weinig onderhoud vraagt?
- Hoe kan het in productie genomen worden en welke afhankelijkheden zijn er daarin?
- Op welke manieren kan het model falen, en hoe kunnen we dat voorkomen of detecteren?
Gezamenlijk wordt het prototype doorgelicht en klaargestoomd voor productiewerk.
Van Data Scientist tot Data Science Engineer
Kunnen Data Scientists dat dan niet zelf? Sommige wel, maar over het algemeen ligt de focus van Data Scientists meer op de onderzoeks- en wiskundige kant van het verhaal dan aan de technische kant.
Soms komt er wel een werkbare oplossing, ondanks het gebrek aan Engineers in het team. Dan ontwikkelt één van de Data Scientists zich meer richting Data Science Engineer of Machine Learning Engineer dan een pure Data Scientist. Als dat niet bevalt, kan dat weer een reden zijn voor die Data Scientist om verder te kijken.
Wat doet een Data Engineer?
Data Engineers* zorgen voor betrouwbare data oplossingen die tegen een stootje kunnen, waardoor het vertrouwen in de op basis van die data genomen belissingen toeneemt. Ze zorgen voor het ontsluiten van nieuwe data, wat legio mogelijkheden biedt voor de organisatie. Bovendien zorgen ze ook mede voor een data infrastructuur die voldoet aan de eisen en wensen van de organisatie, zodat data niet alleen beschikbaar is, maar ook nog op tijd en van voldoende kwaliteit.
Dat is precies waarom een effectieve Data Science afdeling ook Data Engineering capaciteit nodig heeft.
Sparren over jouw ideale Data Science en -Engineering team?
We denken graag met je mee! Neem direct contact met ons op.
Dit is een artikel van Victor van den Broek, Senior Data Science Engineer, Digital Power
Victor is een ervaren Data Scientist met scherpe business focus. Vanuit zijn ondernemende achtergrond is hij altijd op zoek naar de toepassing van data in je bedrijfsprocessen en hoe je daar maximaal waarde uit kan halen, terwijl de organisatie flexibel en wendbaar blijft.
1x per maand data insights, praktijkcases en een kijkje achter de schermen ontvangen?
Meld je aan voor onze maillijst en blijf 'up to data':