Een schaalbaar machine learning-platform voor het voorspellen van billboard-impressies

The Neuron

  • Klantcase
  • Data Engineering
billboards
The Neuron
Joachim-business-manager
Joachim van Biemen
Business Manager
3 min
28 Oct 2021

The Neuron biedt een programmatisch biedingsplatform om digitale Out-Of-Home-advertenties in realtime te plannen, kopen en beheren. Ze vroegen ons het aantal verwachte impressies voor digitale advertenties op billboards op een schaalbare en efficiënte manier te voorspellen.

Onze aanpak

Ons werk bestond uit drie onderdelen: het opzetten van een data lake in AWS, het verwerken van data, en het ontwikkelen, trainen en implementeren van een machine learning model.

Data Lake in AWS

We startten met de opzet van een data lake. Met een data lake kun je grote hoeveelheden gestructureerde en ongestructureerde data opslaan. Organisaties gebruiken tegenwoordig een breed scala aan applicaties die grote hoeveelheden data genereren in verschillende formaten.

Voor The Neuron zetten we een data lake op met S3 voor dataopslag, Glue Catalog voor metadatabeheer en Glue Jobs (managed Apache Spark jobs) voor dataverwerking. Het data lake is opgedeeld in drie lagen:

  • Brons voor ruwe, onbewerkte data.
  • Zilver voor verwerkte gegevens.
  • Goud voor volledig verwerkte en verrijkte data.

Door het gebruik van serverless AWS-componenten zorgden we voor een goede schaalbaarheid en stabiliteit van het platform en lagere operationele kosten. We ontwikkelden en implementeerden alle infrastructuur met Infrastructure as Code (IaC) met behulp van Terraform.

Gegevens van camera’s verzamelen

Elk billboard is uitgerust met een camera. De continue stroom van beelden wordt verzameld door een externe dienst die objectdetectie-algoritmen gebruikt om het aantal passerende mensen en voertuigen te meten.

De ruwe data wordt elke 5 minuten uit deze dienst gehaald en opgeslagen in de bronzen laag van het data lake in CSV-formaat. Vervolgens wordt de data verwerkt en opgeslagen in de zilveren laag van het data lake in Apache Parquet formaat. Als laatste stap wordt de data geaggregeerd, zodat deze klaar is voor gebruik binnen het Machine Learning model. De geaggregeerde data wordt vervolgens opgeslagen in de gouden laag van het data lake. Alle verwerkingsstappen worden uitgevoerd met behulp van Apache Spark.

Modelontwikkeling, training en implementatie

Het doel van het project was om het aantal billboard-impressies over een bepaalde periode te kunnen voorspellen. Om de nauwkeurigheid van het model te vergroten, kreeg elk billboard zijn eigen getrainde versie van het model. Dit betekende dat er een apart model moest worden getraind voor in totaal 140 billboards.

Resultaat

Om meerdere Machine Learning modellen gelijktijdig te trainen, gebruikten we AWS Sagemaker. De resulterende modellen werden opgeslagen in S3. De modellen werden vervolgens beschikbaar gesteld via een REST API, vanuit waar voorspellingen worden opgehaald en beschikbaar gesteld aan het biedingsplatform.

Per billboard worden verwachte impressies voor de komende twintig minuten voorspeld en via het uitwisselingsplatform aan potentiële kopers gepresenteerd.

Toekomst

Naast de integratie van data uit camera’s, zetten we data pipelines voor het verwerken en beschikbaar maken van data over de weersomstandigheden rondom billboards. Deze data kan in de toekomst bijdragen aan een verdere verbetering van de nauwkeurigheid waarmee het aantal verwachte impressies wordt voorspeld.

Meer weten?

Business Manager Joachim gaat graag met je in gesprek over wat we als datapartner voor jou en je organisatie kunnen betekenen.

1x per maand data insights, praktijkcases en een kijkje achter de schermen ontvangen?

Meld je aan voor onze maillijst en blijf 'up to data':

Dit vind je misschien ook interessant

Digitale transformatie en betere interne samenwerking dankzij inzicht in off- én online data

Uitgever Malmberg verzamelt veel off- en online data. Steeds meer onderwijsinstellingen maken gebruik van online licenties ter aanvulling op (of in plaats van) gedrukt lesmateriaal. Om hierop in te spelen, maakt Malmberg gebruik van maandelijkse rapportages. Het in-house data team stelt deze samen als input voor specifieke afdelingen. Malmberg vroeg ons dit team te versterken en de interne processen rondom data efficiënter te maken.

Lees meer
Data Engineer aan het werk

Data Engineering

Genereer betrouwbare en betekenisvolle inzichten uit een solide, veilige en schaalbare infrastructuur. Ons team van 25+ Data Engineers staat klaar om jouw dataproducten en -infrastructuur end-to-end te implementeren, te onderhouden én te optimaliseren.

Lees meer
fysioholland data

Een goed georganiseerde data-infrastructuur

FysioHolland is een overkoepelende organisatie voor fysiotherapeuten in Nederland. Een centraal serviceteam ontlast therapeuten van bijkomende werkzaamheden, zodat zij zich vooral kunnen focussen op het leveren van de beste zorg. Naast de organische groei sluit FysioHolland nieuwe praktijken aan bij de organisatie. Deze hebben stuk voor stuk hun eigen systemen, werkprocessen en behandelcodes. Dit heeft de datahuishouding van FysioHolland groot en complex gemaakt.

Lees meer
Data Engineer aan het werk

Data Engineer

Werk aan uitdagende technische opdrachten bij verschillende opdrachtgevers.

Lees meer
meer

Verbeterde datakwaliteit dankzij een nieuwe data pipeline

Royal HaskoningDHV ziet het aantal aanvragen van klanten met Data Engineering vraagstukken toenemen. De nieuwe afdeling die ze hiervoor op hebben gericht, is nog groeiende. Ze vroegen ons daarom hun Data Engineering team tijdelijk extra capaciteit te bieden. Één van de vraagstukken waar wij hulp bij boden, was die van Waterschap Aa en Maas.

Lees meer

5 redenen om Infrastructure as Code (IaC) te gebruiken

Infrastructure as Code heeft zich bewezen als betrouwbare techniek om platformen sterk neer te zetten in de cloud. Het vraagt echter wel een extra tijdsinvestering van de betrokken ontwikkelaars. In welke gevallen loont de extra inspanning zich? Je leest het in dit artikel.

Lees meer
data geestelijke gezondheidszorg

Centrale dataopslag met een nieuwe data-infrastructuur

Dedimo is een samenwerking van vijf zorginitiatieven in de geestelijke gezondheidszorg. Om de kwaliteit van hun zorg continu te verbeteren, richten ze interne processen efficiënter in. Hiervoor gebruiken ze inzichten uit de data die intern beschikbaar is. Voorheen haalden ze deze data zelf uit verschillende bronsystemen met ad hoc scriptjes. Om dit proces robuuster en efficiënter te maken en verder te professionaliseren, schakelden ze onze hulp in. Ze vroegen ons de centrale opslag van hun data in een cloud data warehouse te faciliteren. Omdat ze al gewend waren te werken met Google Cloud Platform (GCP), was de wens de data-infrastructuur binnen deze omgeving op te zetten.

Lees meer

Waarom heb ik Data Engineers nodig als ik Data Scientists heb?

Inmiddels is het bij de meeste bedrijven wel duidelijk: datagedreven beslissingen door Data Science voegen concreet waarde toe aan de bedrijfsvoering. Of je doel nu is om betere marketingcampagnes op te zetten, preventief onderhoud aan je machines uit te voeren of fraude effectiever te bestrijden: in elke bedrijfstak zijn er toepassingen van Data Science te vinden.

Lees meer

5 vragen aan Data Engineer Dennis

In deze video ontdek je hoe een baan als Data Engineer eruit ziet! Hoe ziet een werkweek eruit, voor welke klanten werken onze Data Engineers en wat maakt het werken zo leuk? Dennis vertelt je er graag meer over!

Lees meer