Skip to content

PeaceTech Lab

HOME / KLANTCASES / PEACETECH LAB

De COVID-19 Violence Tracker

De uitbraak van de coronapandemie begin 2020 heeft de wereld op zijn kop gezet. Naast talloze besmettingen, ziekenhuisopnamen en doden zagen we in veel landen ook een uitbraak van geweldBurgers gingen, soms met geweld, de straat op om te protesteren tegen getroffen maatregelen, maar ook het huiselijk geweld nam op veel plaatsen toe en angst en frustratie speelden racisme in de hand.

In mei 2020 meldde PeaceTech Lab (US) zich bij PeaceTech Lab NL en Digital Power met een prototype van de COVID-19 Violence TrackerPeaceTech Lab had met hulp van vrijwilligers berichtgeving over coronagerelateerd geweld handmatig verzameld en de inzichten in een dashboard (zie figuur 1) gevisualiseerd. Het lab wilde daarna de verzameling van nieuwsberichten automatiseren. Dat bleek een mooie uitdaging voor onze consultants!

COVID19-violence-tracker
Figuur 1. De eerste visualisatie van de Violence Tracker

Onze aanpak

Vanaf mei 2020 hebben verschillende Data Scientists, Data Engineers en Data Analisten uit ons team meegebouwd aan de tracker. We doneerden via onze stichting, de Digital Power Datahub, meer dan 200 uur werk. We namen de technische uitvoering grotendeels onder onze hoede en bespraken wekelijks de voortgang met de teams van PeaceTech Lab. Het project bestond uiteindelijk uit acht fases:

Fase 1

We begonnen met een (tekst)analyse van het vocabulaire in de handmatig verzamelde nieuwsberichten. De word cloud hieronder is daar een visualisatie van. We bekeken wat de meest voorkomende woorden waren in de nieuwsberichten en kwamen bijvoorbeeld “domestic”, “violence” en “police” vaak tegen.

covid-nieuws-analyse
Figuur 2. Een word cloud o.b.v. het prototype

Fase 2

We kozen, na onderzoek, een methode voor datacollectie, dat werd social listening met de tool Brandwatch. Zo konden we geautomatiseerd nieuwsberichten van het web verzamelen waarin bepaalde woorden voorkwamen (zoals “domestic” en “violence”).

Fase 3

We schreven een query, ofwel een zoekopdracht, met de meest relevante (combinaties van) Engelse woorden, bijvoorbeeld “covid”+”violence”.

Fase 4

Vanaf juli 2020 verzamelden we continu nieuwsberichten via Brandwatch. In totaal verzamelden we meer dan 9 miljoen berichten.

Fase 5

Hoewel Brandwatch een handige tool is voor datacollectie, bood het niet alle mogelijkheden die we zochten voor de analyse van onze data. Daarom ontwikkelden we een aparte data infrastructuur in Google Cloud. Daar werd de data uit Brandwatch automatisch naar geëxporteerd, zodat we er vervolgens zelf mee aan de slag konden.

Fase 6

Zodra we begonnen met de eerste analyses van de data, kwamen we erachter dat er een hele hoop ruis (irrelevante nieuwsberichten) in onze dataset zat. Daar wilden we van af. Daarom hielden we drie validatierondes met vrijwilligers die noteerden welke berichten wel en niet écht over corona-gerelateerd geweld gingen. Zo begonnen we aan een grote data-schoonmaak.

Fase 7

Aan de hand van inzichten uit deze validatierondes optimaliseerden we onze query in Brandwatch. We verwijderden woorden met een dubbele betekenis, zoals “beat” (wat slaan betekent, maar ook verslaan in sport) uit de zoekopdracht. Deze veroorzaakten namelijk een groot deel van de ruis.

Fase 8

Ook met deze aanpassingen zat er nog veel ruis in onze dataset. Dus werd het tijd voor zwaarder geschut: we ontwikkelden met onze gevalideerde datasets een NLP model dat zelf relevante en irrelevante nieuwsberichten leerde te onderscheiden. Zo sloten we het project af met een opgeschoonde dataset.

Het resultaat

In september 2021 kregen 16 dataspecialisten van Digital Power 3 uur de tijd om inzichten uit de dataset te halen die van belang kunnen zijn voor beleidsmakers.

Hoewel deze hackathon opnieuw datakwaliteitsissues blootlegde, ontdekten onze consultants ook een aantal interessante mogelijkheden. Zo werkte een van de teams aan een tekstanalyse om het taalgebruik rondom verschillende thema’s (zoals racisme) in kaart te brengen.

Een tweede team keek naar geografische patronen in de berichtgeving rond corona-gerelateerd geweld, en er werd naar mogelijke verbanden tussen (het volume van) berichtgeving en persvrijheid in verschillende landen gekeken. Kortom: hoewel de datakwaliteit van de dataset nog altijd niet perfect is, valt er genoeg te onderzoeken met de COVID-19 Violence Tracker!

Benieuwd naar de dataset? Download hem hier.

Partners

We voerden dit project uit samen met PeaceTech Lab. Daarnaast droegen onderstaande partners bij:

We werken onder andere voor

Meer weten?
Marieke, voorzitter van de Digital Power Datahub gaat graag met je in gesprek over wat we als datapartner voor jou en je organisatie kunnen betekenen.

Of je nou consultant bent of staflid: reizen moet nooit een issue zijn. Waar kies jij voor?

  • Een NS-Business card waarmee je onbeperkt gratis kunt reizen door het hele land, ook in je vrije tijd. 
  • Eigen vervoer en een kilometervergoeding van €0,19 per km, ook als je fietst.
  • Een poolauto, lease auto of tijdelijke huurauto (we vertellen je graag meer over de voorwaarden) 

Bij Digital Power staat ontwikkeling hoog in het vaandel. Dit stimuleren we met een ongelimiteerd ontwikkelbudget en een focus op het delen van kennis. 

Waar we écht in uitblinken, is onze persoonlijke begeleiding op jouw ontwikkeltraject. Zelf heb je vast een goed beeld waar je heen wilt. Twee begeleiders die je zelf kiest, helpen je bij het identificeren van specifieke doelen en acties. We noemen dit ‘De Gouden Driehoek’.

Zolang jij je blijft ontwikkelen, zal je ook blijven groeien in onze organisatie. Want jouw loonsverhoging is gekoppeld aan je drive om verder te komen. Zolang dat gebeurt, ben je hiervan verzekerd!