De COVID-19 Violence Tracker

PeaceTech Lab

Klantcase
Data Analytics
AI & Data Science
Dataprojecten

Sanne Kieftenburg

Accountmanager Datahub

3 min

12 Oct 2021

De uitbraak van de coronapandemie begin 2020 heeft de wereld op zijn kop gezet. Naast talloze besmettingen, ziekenhuisopnamen en doden zagen we in veel landen ook een uitbraak van geweld. Burgers gingen, soms met geweld, de straat op om te protesteren tegen getroffen maatregelen, maar ook het huiselijk geweld nam op veel plaatsen toe en angst en frustratie speelden racisme in de hand.

In mei 2020 meldde PeaceTech Lab (US) zich bij PeaceTech Lab NL en Digital Power met een prototype van de COVID-19 Violence Tracker. PeaceTech Lab had met hulp van vrijwilligers berichtgeving over corona–gerelateerd geweld handmatig verzameld en de inzichten in een dashboard (zie figuur 1) gevisualiseerd. Het lab wilde daarna de verzameling van nieuwsberichten automatiseren. Dat bleek een mooie uitdaging voor onze consultants!

De eerste visualisatie van de Violence Tracker

Onze aanpak

Vanaf mei 2020 hebben verschillende Data Scientists, Data Engineers en Data Analisten uit ons team meegebouwd aan de tracker. We doneerden via onze stichting, de Digital Power Datahub, meer dan 200 uur werk. We namen de technische uitvoering grotendeels onder onze hoede en bespraken wekelijks de voortgang met de teams van PeaceTech Lab. Het project bestond uiteindelijk uit acht fases:

Fase 1

We begonnen met een (tekst)analyse van het vocabulaire in de handmatig verzamelde nieuwsberichten. De word cloud hieronder is daar een visualisatie van. We bekeken wat de meest voorkomende woorden waren in de nieuwsberichten en kwamen bijvoorbeeld “domestic”, “violence” en “police” vaak tegen.

Fase 2

We kozen, na onderzoek, een methode voor datacollectie, dat werd social listening met de tool Brandwatch. Zo konden we geautomatiseerd nieuwsberichten van het web verzamelen waarin bepaalde woorden voorkwamen (zoals “domestic” en “violence”).

Fase 3

We schreven een query, ofwel een zoekopdracht, met de meest relevante (combinaties van) Engelse woorden, bijvoorbeeld “covid”+”violence”.

Fase 4

Vanaf juli 2020 verzamelden we continu nieuwsberichten via Brandwatch. In totaal verzamelden we meer dan 9 miljoen berichten.

Fase 5

Hoewel Brandwatch een handige tool is voor datacollectie, bood het niet alle mogelijkheden die we zochten voor de analyse van onze data. Daarom ontwikkelden we een aparte data infrastructuur in Google Cloud. Daar werd de data uit Brandwatch automatisch naar geëxporteerd, zodat we er vervolgens zelf mee aan de slag konden.

Fase 6

Zodra we begonnen met de eerste analyses van de data, kwamen we erachter dat er een hele hoop ruis (irrelevante nieuwsberichten) in onze dataset zat. Daar wilden we van af. Daarom hielden we drie validatierondes met vrijwilligers die noteerden welke berichten wel en niet écht over corona-gerelateerd geweld gingen. Zo begonnen we aan een grote data-schoonmaak.

Fase 7

Aan de hand van inzichten uit deze validatierondes optimaliseerden we onze query in Brandwatch. We verwijderden woorden met een dubbele betekenis, zoals “beat” (wat slaan betekent, maar ook verslaan in sport) uit de zoekopdracht. Deze veroorzaakten namelijk een groot deel van de ruis.

Fase 8

Ook met deze aanpassingen zat er nog veel ruis in onze dataset. Dus werd het tijd voor zwaarder geschut: we ontwikkelden met onze gevalideerde datasets een NLP model dat zelf relevante en irrelevante nieuwsberichten leerde te onderscheiden. Zo sloten we het project af met een opgeschoonde dataset.

Het resultaat

In september 2021 kregen 16 dataspecialisten van Digital Power 3 uur de tijd om inzichten uit de dataset te halen die van belang kunnen zijn voor beleidsmakers.

Hoewel deze hackathon opnieuw datakwaliteitsissues blootlegde, ontdekten onze consultants ook een aantal interessante mogelijkheden. Zo werkte een van de teams aan een tekstanalyse om het taalgebruik rondom verschillende thema’s (zoals racisme) in kaart te brengen.

Een tweede team keek naar geografische patronen in de berichtgeving rond corona-gerelateerd geweld, en er werd naar mogelijke verbanden tussen (het volume van) berichtgeving en persvrijheid in verschillende landen gekeken. Kortom: hoewel de datakwaliteit van de dataset nog altijd niet perfect is, valt er genoeg te onderzoeken met de COVID-19 Violence Tracker!

Benieuwd naar de dataset? Download hem hier.

Partners

We voerden dit project via onze stichting de Digital Power Datahub uit, samen met PeaceTech Lab. Daarnaast droegen onderstaande partners bij:

Meer weten?

Sanne, voorzitter van de pijler 'data doet goed' van de Digital Power Datahub, gaat graag met je in gesprek over wat we als datapartner voor jou en je organisatie kunnen betekenen.

Sanne Kieftenburg

Accountmanager Datahub datahub@digital-power.com

1x per maand data insights, praktijkcases en een kijkje achter de schermen ontvangen?

Meld je aan voor onze maillijst en blijf 'up to data':

aanmelden

Dit vind je misschien ook interessant

Jouw Data Engineering partner

Genereer betrouwbare en betekenisvolle inzichten uit een solide, veilige en schaalbare infrastructuur. Ons team van 25+ Data Engineers staat klaar om jouw dataproducten en -infrastructuur end-to-end te implementeren, te onderhouden én te optimaliseren.

Lees meer

Data Engineer

Bouw schaalbare dataplatformen en neem technische beslissingen die impact maken bij toonaangevende organisaties.

Lees meer

5 vragen aan Data Engineer Dennis

In deze video ontdek je hoe een baan als Data Engineer eruit ziet! Hoe ziet een werkweek eruit, voor welke klanten werken onze Data Engineers en wat maakt het werken zo leuk? Dennis vertelt je er graag meer over!

Lees meer

5 redenen om Infrastructure as Code (IaC) te gebruiken

Infrastructure as Code heeft zich bewezen als betrouwbare techniek om platformen sterk neer te zetten in de cloud. Het vraagt echter wel een extra tijdsinvestering van de betrokken ontwikkelaars. In welke gevallen loont de extra inspanning zich? Je leest het in dit artikel.

Lees meer

Verbeterde datakwaliteit dankzij een nieuwe data pipeline

Royal HaskoningDHV ziet het aantal aanvragen van klanten met Data Engineering vraagstukken toenemen. De nieuwe afdeling die ze hiervoor op hebben gericht, is nog groeiende. Ze vroegen ons daarom hun Data Engineering team tijdelijk extra capaciteit te bieden. Één van de vraagstukken waar wij hulp bij boden, was die van Waterschap Aa en Maas.

Lees meer

Het meetbaar maken van impact

De stichting Designathon Works organiseert Design Hackathons (Designathons) voor kinderen tussen de 8 en 12 jaar. Het doel? Kinderen van over de hele wereld skills aanleren om een ‘changemaker’ te kunnen worden. Ze worden uitgedaagd om oplossingen te ontwerpen voor een betere wereld, bijvoorbeeld het tegengaan van klimaatverandering. Vanuit de Datahub hielpen we Designathon Works kosteloos de impactmetingen aan te scherpen. Ook deden we een eerste aanzet tot automatisering van de dataverzameling, analyse en visualisatie.

Lees meer

Een goed georganiseerde data-infrastructuur

FysioHolland is een overkoepelende organisatie voor fysiotherapeuten in Nederland. Een centraal serviceteam ontlast therapeuten van bijkomende werkzaamheden, zodat zij zich vooral kunnen focussen op het leveren van de beste zorg. Naast de organische groei sluit FysioHolland nieuwe praktijken aan bij de organisatie. Deze hebben stuk voor stuk hun eigen systemen, werkprocessen en behandelcodes. Dit heeft de datahuishouding van FysioHolland groot en complex gemaakt.

Lees meer

Een schaalbaar machine learning-platform voor het voorspellen van billboard-impressies

The Neuron biedt een programmatisch biedingsplatform om digitale Out-Of-Home-advertenties in realtime te plannen, kopen en beheren. Ze vroegen ons het aantal verwachte impressies voor digitale advertenties op billboards op een schaalbare en efficiënte manier te voorspellen.

Lees meer

Waarom heb ik Data Engineers nodig als ik Data Scientists heb?

Inmiddels is het bij de meeste bedrijven wel duidelijk: datagedreven beslissingen door Data Science voegen concreet waarde toe aan de bedrijfsvoering. Of je doel nu is om betere marketingcampagnes op te zetten, preventief onderhoud aan je machines uit te voeren of fraude effectiever te bestrijden: in elke bedrijfstak zijn er toepassingen van Data Science te vinden.

Lees meer

Digitale transformatie en betere interne samenwerking dankzij inzicht in off- én online data

Uitgever Malmberg verzamelt veel off- en online data. Steeds meer onderwijsinstellingen maken gebruik van online licenties ter aanvulling op (of in plaats van) gedrukt lesmateriaal. Om hierop in te spelen, maakt Malmberg gebruik van maandelijkse rapportages. Het in-house data team stelt deze samen als input voor specifieke afdelingen. Malmberg vroeg ons dit team te versterken en de interne processen rondom data efficiënter te maken.

Lees meer