Met MLOps naar volledig geautomatiseerde en betrouwbare salesvoorspellingen

Wereldwijde vermogensbeheerder

  • Klantcase
  • Data Engineering
MLOps
Philip-data-scientist
Philip Roeleveld
Machine Learning Engineer
5 min
24 Sep 2024

Een wereldwijde vermogensbeheerder en specialist in Quant en Duurzaam Beleggen biedt beleggingsstrategieën aan, variërend van aandelen tot obligaties. Om hun concurrentiepositie te versterken en proactief in te spelen op veranderende klantbehoeften en marktontwikkelingen, wilde de sales- en marketingafdeling meer datagedreven gaan werken.

Het team voerde data-analyses uit om ad-hoc vragen te beantwoorden, en een data scientist ontwikkelde een machine learning model om salesmomenten te voorspellen. Dit model stond echter op de laptop van de data scientist, waardoor de voorspellingen op het dashboard snel verouderden en er veel handmatig werk nodig was om deze te updaten. Hoewel dit een goede eerste stap was, bood het geen toekomstbestendige oplossing.

Om een geautomatiseerd systeem te realiseren dat periodieke voorspellingen kon doen en deze direct naar het dashboard kon sturen, schakelden ze de hulp in van een van onze Data Engineers.

Aanpak

We werkten samen met de data scientist van de vermogensbeheerder via coachingsessies. Ons doel was om het bestaande model voor salesvoorspellingen te automatiseren en toekomstbestendig te maken, waarbij we MLOps-best practices gebruikten. Dit zorgt ervoor dat het model in de toekomst blijft werken en dat het eenvoudiger wordt om nieuwe modellen toe te voegen. Omdat de data scientist nauw betrokken was bij het hele proces en met coaching veel zelf kon implementeren, blijft de kennis en de MLOps-werkwijze ook binnen het bedrijf. Het proces omvatte de volgende stappen:

1. Brondata automatiseren: Allereerst wilden we de data die gebruikt werd voor het trainen van het model automatisch uit de bron halen. Een uitdaging hierbij was dat de vermogensbeheerder tegelijkertijd bezig was met het herstructureren van hun datawarehouse. Hierdoor konden we niet direct aansluiten op het datawarehouse. In plaats daarvan uploadden we de data tijdelijk automatisch vanuit het analytics systeem naar Azure. Wanneer het vernieuwde datawarehouse gereed is, kan het model daar natuurlijk direct op aansluiten.

2. Pipelines opzetten: Vervolgens maakten we twee pipelines in Azure ML en Azure DevOps. De eerste pipeline was bestemd voor het trainen van het model en de tweede pipeline voor het maken van voorspellingen. Deze tweede pipeline zorgt er ook voor dat de data automatisch op de juiste plek terecht komt voor het dashboard.

3. Code herschrijven: We herschreven de code om deze geschikt te maken voor automatisering en gebruik in de twee pipelines. We plaatsten de code ook in een Git-repository om versiebeheer en CI/CD mogelijk te maken.

We richtten de automatisering volgens de MLOps-methode in, zodat deze geschikt is voor meerdere modellen en toekomstbestendig is. Hiervoor maakten we de boilerplate code generiek, zodat de code en configuratie eenvoudig herbruikbaar zijn voor andere modellen. Dit bevordert consistentie, versnelt de ontwikkeling van nieuwe modellen, en biedt de zekerheid dat alle modellen in de toekomst in een stabiele omgeving draaien.

Resultaat

Het model is nu volledig geautomatiseerd en toekomstbestendig. Voorspellingen worden automatisch gegenereerd en direct opgenomen in het dashboard, wat veel handmatig werk bespaart. Het enige handmatige proces dat nog resteert, is de goedkeuring van het model na de training. Deze laatste controle door een persoon blijft belangrijk om de kwaliteit te waarborgen.

Daarnaast heeft de data scientist aanzienlijk meer kennis opgedaan over data engineering en MLOps. Dit stelt haar in staat om deze vaardigheden in de toekomst meer zelfstandig toe te passen, en betekent ook dat de kennis binnen de organisatie gewaarborgd blijft.

Toekomst

In de toekomst zetten we de samenwerking met de data scientist van de vermogensbeheerder voort om een volgend model te ontwikkelen voor een andere toepassing. Aangezien dit model vanaf nul moet worden ontwikkeld, zullen we starten met data science en het vervolgens in dezelfde structuur gieten om het te automatiseren. Doordat het eerste model op de juiste MLOps-manier is opgezet, zal dit een stuk efficiënter verlopen.

Meer weten?

Joachim gaat graag met je in gesprek over wat we als datapartner voor jou en je organisatie kunnen betekenen.

1x per maand data insights, praktijkcases en een kijkje achter de schermen ontvangen?

Meld je aan voor onze maillijst en blijf 'up to data':

Dit vind je misschien ook interessant

Kubernetes-based event-driven autoscaling met KEDA: een praktische gids

In dit Engelstalige artikel beginnen we met een uitleg van wat Kubernetes Event Driven Autoscaling (KEDA) inhoudt. Vervolgens richten we een lokale ontwikkelomgeving in die het mogelijk maakt om KEDA te demonstreren met behulp van Docker en Minikube. Daarna leggen we het scenario uit dat geïmplementeerd zal worden om KEDA te demonstreren, en doorlopen we dit scenario stap voor stap. Aan het einde van het artikel heeft de lezer een duidelijk beeld van wat KEDA is en hoe hij of zij zelf een architectuur met KEDA kan implementeren.

Lees meer

Azure App functions configureren

In dit Engelstalige artikel beginnen we met het bespreken van Serverless Functions. Vervolgens demonstreren we hoe je Terraform-bestanden gebruikt om het implementatieproces van een doelinfrastructuur te vereenvoudigen, hoe een Function App in Azure kan worden gemaakt, het gebruik van GitHub-workflows om continuous integration en implementatie te beheren, en hoe branching strategieën kunnen worden gebruikt om code wijzigingen selectief uit te rollen naar specifieke instanties van Function Apps.

Lees meer
ai-chatbot

Hoe werkt de AI Document Explorer in de praktijk?

De AI Document Explorer (AIDE) is een cloudoplossing, ontwikkeld door Digital Power, die gebruik maakt van het OpenAI’s GPT-model. Je kunt het inzetten om snel inzicht te krijgen in bedrijfsdocumenten. AIDE indexeert jouw bestanden op een veilige manier waardoor het mogelijk wordt om vragen te stellen over jouw eigen documenten. Niet alleen geeft het jou de antwoorden waar je naar op zoek bent, het geeft ook de referenties naar de plekken waar deze antwoorden staan.

Lees meer
Data Engineer and ML Engineer talking to each other

Wat doet een (Cloud) Data Engineer versus een Machine Learning Engineer?

In de wereld van data en technologie zijn Data Engineers en Machine Learning Engineers cruciale spelers. Beide rollen zijn essentieel voor het ontwerpen, bouwen en onderhouden van moderne data-infrastructuren en geavanceerde machine learning (ML) toepassingen. In deze blog focussen we specifiek op de taken en verantwoordelijkheden van een Data Engineer en Machine Learning Engineer.

Lees meer
een dataplatform implementeren

Een dataplatform implementeren

Deze blog is bedoeld om onze kennis en ervaring over te dragen aan de gemeenschap door richtlijnen te beschrijven voor de implementatie van een dataplatform in een organisatie, gebaseerd op onze knowhow. We weten dat de specifieke behoeften van elke organisatie anders zijn, dat ze een impact zullen hebben op de gebruikte technologieën en dat één enkele architectuur die aan al deze behoeften voldoet, niet realistisch is. Daarom houden we het in deze blog zo algemeen mogelijk.

Lees meer
Data Engineer aan het werk

Jouw Data Engineering partner

Genereer betrouwbare en betekenisvolle inzichten uit een solide, veilige en schaalbare infrastructuur. Ons team van 25+ Data Engineers staat klaar om jouw dataproducten en -infrastructuur end-to-end te implementeren, te onderhouden én te optimaliseren.

Lees meer
kadaster header

Efficiënter werken dankzij migratie naar Databricks

Het Kadaster beschikt onder andere over complexe (geo)data van al het vastgoed in Nederland. Alle data wordt opgeslagen en verwerkt via een on-premise data warehouse in Postgres. Voor het onderhoud van dit warehouse zijn ze afhankelijk van een IT-partner. Het Kadaster wil kosten besparen en efficiënter gaan werken door te migreren naar een Databricks-omgeving. Ze vroegen ons te helpen bij de implementatie van dit data lakehouse in Microsoft Azure Cloud.

Lees meer
iphone met spotify muziek

Miljarden streams omgezet in bruikbare inzichten met een nieuw data- en analytics platform

Merlin is de grootste digitale muzieklicentiepartner voor onafhankelijke labels, distributeurs en andere rechthebbenden. De leden van Merlin vertegenwoordigen 15% van de wereldwijde markt voor muziekopnames. Het bedrijf heeft overeenkomsten met Apple, Facebook, Spotify, YouTube en 40 andere innovatieve digitale platforms over de hele wereld voor de opnames van haar leden. Het team van Merlin volgt betalingen en gebruiksrapporten van digitale partners nauwlettend en zorgt ervoor dat hun leden nauwkeurig, efficiënt en consistent worden betaald en van rapportages worden voorzien.

Lees meer
afbeelding van euros

Snelle en betrouwbare interne informatie met behulp van AI Document Explorer

Financiële instellingen moeten grote hoeveelheden documentatie verwerken. Voor deze specifieke instelling faciliteert een intern team dit door bijvoorbeeld samenvattingen te maken met behulp van tekstanalyse en natural language processing (NLP). Deze maken ze beschikbaar voor de verschillende business units. Om audits efficiënter uit te voeren, wilden ze een vraag- en antwoordmodel ontwikkelen om sneller de juiste informatie tot hun beschikking te hebben. Toen ChatGPT werd gelanceerd, vroegen ze ons een proof of concept te maken.

Lees meer
elevator

20% minder klachten dankzij datagedreven onderhoudsrapportages

Een belangrijk onderdeel van de bedrijfsvoering van Otis is het onderhoud van hun liften. Om dit goed te timen en klanten proactief te informeren over de status van hun lift, wilde Otis continue monitoring inzetten. Ze zagen veel potentie in predictive maintenance en onderhoud op afstand.

Lees meer
valk exclusief

Opzet van een toekomstbestendige data-infrastructuur

Valk Exclusief is een keten van 4 sterren+ hotels en heeft 43 hotels in Nederland. De hotelketen wil gasten graag een persoonlijke ervaring bieden, zowel in het hotel als online.

Lees meer
fysioholland data

Een goed georganiseerde data-infrastructuur

FysioHolland is een overkoepelende organisatie voor fysiotherapeuten in Nederland. Een centraal serviceteam ontlast therapeuten van bijkomende werkzaamheden, zodat zij zich vooral kunnen focussen op het leveren van de beste zorg. Naast de organische groei sluit FysioHolland nieuwe praktijken aan bij de organisatie. Deze hebben stuk voor stuk hun eigen systemen, werkprocessen en behandelcodes. Dit heeft de datahuishouding van FysioHolland groot en complex gemaakt.

Lees meer
billboards

Een schaalbaar machine learning-platform voor het voorspellen van billboard-impressies

The Neuron biedt een programmatisch biedingsplatform om digitale Out-Of-Home-advertenties in realtime te plannen, kopen en beheren. Ze vroegen ons het aantal verwachte impressies voor digitale advertenties op billboards op een schaalbare en efficiënte manier te voorspellen.

Lees meer

Een dag in het leven van een Data Engineer

Voor het ontwikkelen van moderne datatoepassingen is de Data Engineer onmisbaar. Maar wat betekent het eigenlijk om Data Engineer te zijn en wat doe je dan precies? Onze collega Oskar, Data Engineer bij Digital Power, legt het je uit.

Lees meer
python project managers

De beste Python-projectmanagers vergelijken

In de steeds veranderende wereld van Python is het belangrijk om pakketten, omgevingen en versies efficiënt te beheren. Traditionele tools zoals pip en conda hebben ons goed gediend, maar naarmate projecten complexer worden, nemen ook onze eisen toe. Deze Engelstalige gids kijkt naar moderne alternatieven - Poetry, PDM, Hatch en Rye - die elk unieke mogelijkheden bieden om Python projectbeheer te stroomlijnen.

Lees meer