Miljarden streams omgezet in bruikbare inzichten met een nieuw data- en analytics platform

Merlin

  • Klantcase
  • Data Engineering
  • Dataprojecten
iphone met spotify muziek
Merlin
Zev-business-manager
Zev Posma
Business Manager
3 min
22 Jan 2024

Merlin is de grootste digitale muzieklicentiepartner voor onafhankelijke labels, distributeurs en andere rechthebbenden. De leden van Merlin vertegenwoordigen 15% van de wereldwijde markt voor muziekopnames. Het bedrijf heeft overeenkomsten met Apple, Facebook, Spotify, YouTube en 40 andere innovatieve digitale platforms over de hele wereld voor de opnames van haar leden. Het team van Merlin volgt betalingen en gebruiksrapporten van digitale partners nauwlettend en zorgt ervoor dat hun leden nauwkeurig, efficiënt en consistent worden betaald en van rapportages worden voorzien.

Naast financiële gegevens ontvangt Merlin niet-financiële informatie over gebruikstrends van digitale dienstverleners wereldwijd. Het combineren en analyseren van deze gegevens is van onschatbare waarde voor de leden van Merlin. Maar hoe verzamel, structureer en combineer je de gegevens van meer dan één miljard streams, royalty's en luistergedrag, per dag? En hoe haal je hier bruikbare inzichten uit?

Merlin schakelde onze hulp in om een dataplatform te ontwerpen waar al deze gegevens samenkomen. Een bijzondere uitdaging bij het ontwerp en de ontwikkeling was het enorme volume aan streaminggegevens dat moest worden verzameld en gestructureerd. Een andere uitdaging was dat het oude systeem verschillende cloudproviders gebruikte.

Veertig bronnen moesten worden aangesloten op het nieuwe systeem, waarbij Spotify verreweg de grootste was. Ter illustratie: voor alleen Spotify worden dagelijks bijna 1 miljard rijen gegevens verwerkt.

Aanpak

We deelden dit project op in twee fases.

1. Discovery phase

We begonnen met een discovery phase waarin we alle technische en zakelijke vereisten van de stakeholders verzamelden. We deden verschillende concrete aanbevelingen en zette een architectuur op inclusief tool stack. We kozen voor een architectuur met een datalake. De open structuur hiervan sloot goed aan bij het bestaande platform, waardoor risico's werden verminderd. Zoals te zien is in de onderstaande afbeelding, brachten we de analytische- en financiële pipelines samen op één platform.

2. Implementatiefase

Als onderdeel van de migratie moesten we veel pipelines van het cloudplatform en de orchestrator overzetten. We sloten vele nieuwe bronnen aan en migreerden historische data naar het nieuwe platform. Hierbij liepen we tegen verschillende uitdagingen aan. Denk hierbij aan een datamodel dat in de loop der tijd veranderde of een pipeline die praktisch uit zijn voegen barstte. We losten dit meteen op in samenwerking met de stakeholders.

Platforms zoals deze, die dagelijks terabytes aan gegevens verwerken, halen aanzienlijke voordelen uit een robuuste opzet. De keuze van tools speelt een cruciale rol, evenals een goede opzet van Continuous Integration/Continuous Deployment (CI/CD). Hierbij is het essentieel om een hoge testdekking van functionele code te hebben en geautomatiseerde kwaliteitstests uit te voeren op alle gegevens binnen het ETL/ELT-proces.

Negen maanden lang werkten we, in nauwe samenwerking met Merlin, aan de implementatie van het nieuwe platform. De eerste fase omvatte de implementatie van het platform met behulp van Infrastructure as Code (IaC) en het implementeren van Dremio, de query-engine. Daarna integreerden we de pipelines en stelden we de datalagen binnen het data lakehouse vast. We voerden de pipelines uit op Python-code binnen Airflow, en zetten de tabellen modulair op met behulp van dbt en SQL.

Resultaat

Het nieuwe platform stelt Merlin in staat om financiële en niet-financiële data te koppelen over verschillende partners. Nu kan Merlin diepere inzichten verwerven in trends, zowel intern als voor haar leden. Merlin kan steeds beter antwoord geven op vragen als 'Wat is de beste dag om een nieuwe single uit te brengen in een specifieke markt voor een artiest in country of pop?' of 'Hoe verhoudt de populariteit van artiesten en genres zich tot verschillende muziekplatforms?'

Het geconsolideerde systeem heeft ook de operationele last voor het Analytics Team van Merlin aanzienlijk verminderd. Alle gegevens zijn nu beschikbaar binnen hetzelfde datawarehouse.

Omdat Merlin samenwerkt met labels, distributeurs en rechthebbenden over de hele wereld, beschikt het over een unieke variëteit aan data die zeer veelzijdig en gedetailleerd is. Het nieuwe platform biedt Merlin de mogelijkheid om unieke, nieuwe inzichten te bieden aan haar leden.

Meer weten?

Zev bespreekt graag met je wat wij als datapartner voor jou en je organisatie kunnen betekenen.

1x per maand data insights, praktijkcases en een kijkje achter de schermen ontvangen?

Meld je aan voor onze maillijst en blijf 'up to data':

Dit vind je misschien ook interessant:

potatoes

Waardevolle inzichten uit Microsoft Dynamics 365

Agrico is een coöperatie van aardappeltelers. Zij telen aardappels voor verschillende doeleinden zoals consumptie en het planten van toekomstige oogsten. Deze aardappels worden wereldwijd geëxporteerd via verschillende dochterondernemingen. Alle logistieke en operationele data wordt opgeslagen in hun ERP-systeem Microsoft Dynamics 365. Omdat dit systeem met zijn vele features erg complex is, is de data niet direct geschikt om te gebruiken voor rapportages. Agrico vroeg ons te helpen hun ERP-data inzichtelijk te maken en duidelijke rapportages te ontwikkelen.

Lees meer
vrouw die online aan het shoppen is

Een gestandaardiseerde manier van dataverwerking met behulp van dbt

Een van de grootste webwinkels van Nederland wilde een gestandaardiseerde manier van dataverwerking ontwikkelen binnen een van de datateams. Alle data werd opgeslagen in het schaalbare cloud datawarehouse Google BigQuery. Binnen dit platform waren grote hoeveelheden data beschikbaar op het gebied van orders, producten, marketing, retouren, klantcases en partners.

Lees meer
valk exclusief

Opzet van een toekomstbestendige data-infrastructuur

Valk Exclusief is een keten van 4 sterren+ hotels en heeft 43 hotels in Nederland. De hotelketen wil gasten graag een persoonlijke ervaring bieden, zowel in het hotel als online.

Lees meer
business managers in gesprek

Inzicht in de complete salesfunnel dankzij een datawarehouse met dbt

Onze consultants boeken de opdrachten die ze oppakken voor onze klanten in ons ERP AFAS. Als CRM gebruiken we HubSpot. Hierin zien we alle informatie die voorafgaand aan het tekenen van een samenwerkingsovereenkomst relevant is. Wanneer we een deal sluiten, gaat alle informatie uit HubSpot automatisch naar AFAS. HubSpot wordt dus vooral gebruikt voor het proces voordat we een samenwerking aangaan, AFAS juist voor de fase daarna. We wilden de inzet van onze mensen strakker plannen en onze financiële forecasts verbeteren. Daarom besloten we de data uit beide bronnen te koppelen en een datawarehouse op te zetten.

Lees meer
nederlandse snelweg

Betrouwbare rapportages met behulp van robuuste Python code

Het Nationaal Portaal Wegverkeersgegevens (NDW) is een waardevolle bron voor gemeenten, provincies en de rijksoverheid om inzicht te krijgen in verkeersstromen en de efficiëntie van de infrastructuur te verbeteren.

Lees meer
data platform

Een schaalbaar dataplatform in Azure

TM Forum, een alliantie van meer dan 850 wereldwijde bedrijven, schakelde onze hulp in als datapartner om data gerelateerde uitdagingen te identificeren en op te lossen.

Lees meer

Een volledig geautomatiseerde data import pipeline

Stichting Donateursbelangen wil het vertrouwen tussen donateurs en goede doelen versterken. Daarom wilden ze via een eigen zoekmachine informatie over goede doelen delen met donateurs. De stichting vroeg ons de ANBI-status van goede doelen beschikbaar te stellen voor gebruik in hun zoekmachine. Een instelling krijgt deze status alleen als zij zich (bijna) volledig inzet voor het algemeen belang en zich aan bepaalde voorwaarden houdt.

Lees meer
kadaster header

Efficiënter werken dankzij migratie naar Databricks

Het Kadaster beschikt onder andere over complexe (geo)data van al het vastgoed in Nederland. Alle data wordt opgeslagen en verwerkt via een on-premise data warehouse in Postgres. Voor het onderhoud van dit warehouse zijn ze afhankelijk van een IT-partner. Het Kadaster wil kosten besparen en efficiënter gaan werken door te migreren naar een Databricks-omgeving. Ze vroegen ons te helpen bij de implementatie van dit data lakehouse in Microsoft Azure Cloud.

Lees meer