De COVID-19 Violence Tracker
PeaceTech Lab
- Klantcase
- Data Analytics
- Data Science
- Dataprojecten
De uitbraak van de coronapandemie begin 2020 heeft de wereld op zijn kop gezet. Naast talloze besmettingen, ziekenhuisopnamen en doden zagen we in veel landen ook een uitbraak van geweld. Burgers gingen, soms met geweld, de straat op om te protesteren tegen getroffen maatregelen, maar ook het huiselijk geweld nam op veel plaatsen toe en angst en frustratie speelden racisme in de hand.
In mei 2020 meldde PeaceTech Lab (US) zich bij PeaceTech Lab NL en Digital Power met een prototype van de COVID-19 Violence Tracker. PeaceTech Lab had met hulp van vrijwilligers berichtgeving over corona–gerelateerd geweld handmatig verzameld en de inzichten in een dashboard (zie figuur 1) gevisualiseerd. Het lab wilde daarna de verzameling van nieuwsberichten automatiseren. Dat bleek een mooie uitdaging voor onze consultants!
Onze aanpak
Vanaf mei 2020 hebben verschillende Data Scientists, Data Engineers en Data Analisten uit ons team meegebouwd aan de tracker. We doneerden via onze stichting, de Digital Power Datahub, meer dan 200 uur werk. We namen de technische uitvoering grotendeels onder onze hoede en bespraken wekelijks de voortgang met de teams van PeaceTech Lab. Het project bestond uiteindelijk uit acht fases:
Fase 1
We begonnen met een (tekst)analyse van het vocabulaire in de handmatig verzamelde nieuwsberichten. De word cloud hieronder is daar een visualisatie van. We bekeken wat de meest voorkomende woorden waren in de nieuwsberichten en kwamen bijvoorbeeld “domestic”, “violence” en “police” vaak tegen.
Fase 2
We kozen, na onderzoek, een methode voor datacollectie, dat werd social listening met de tool Brandwatch. Zo konden we geautomatiseerd nieuwsberichten van het web verzamelen waarin bepaalde woorden voorkwamen (zoals “domestic” en “violence”).
Fase 3
We schreven een query, ofwel een zoekopdracht, met de meest relevante (combinaties van) Engelse woorden, bijvoorbeeld “covid”+”violence”.
Fase 4
Vanaf juli 2020 verzamelden we continu nieuwsberichten via Brandwatch. In totaal verzamelden we meer dan 9 miljoen berichten.
Fase 5
Hoewel Brandwatch een handige tool is voor datacollectie, bood het niet alle mogelijkheden die we zochten voor de analyse van onze data. Daarom ontwikkelden we een aparte data infrastructuur in Google Cloud. Daar werd de data uit Brandwatch automatisch naar geëxporteerd, zodat we er vervolgens zelf mee aan de slag konden.
Fase 6
Zodra we begonnen met de eerste analyses van de data, kwamen we erachter dat er een hele hoop ruis (irrelevante nieuwsberichten) in onze dataset zat. Daar wilden we van af. Daarom hielden we drie validatierondes met vrijwilligers die noteerden welke berichten wel en niet écht over corona-gerelateerd geweld gingen. Zo begonnen we aan een grote data-schoonmaak.
Fase 7
Aan de hand van inzichten uit deze validatierondes optimaliseerden we onze query in Brandwatch. We verwijderden woorden met een dubbele betekenis, zoals “beat” (wat slaan betekent, maar ook verslaan in sport) uit de zoekopdracht. Deze veroorzaakten namelijk een groot deel van de ruis.
Fase 8
Ook met deze aanpassingen zat er nog veel ruis in onze dataset. Dus werd het tijd voor zwaarder geschut: we ontwikkelden met onze gevalideerde datasets een NLP model dat zelf relevante en irrelevante nieuwsberichten leerde te onderscheiden. Zo sloten we het project af met een opgeschoonde dataset.
Het resultaat
In september 2021 kregen 16 dataspecialisten van Digital Power 3 uur de tijd om inzichten uit de dataset te halen die van belang kunnen zijn voor beleidsmakers.
Hoewel deze hackathon opnieuw datakwaliteitsissues blootlegde, ontdekten onze consultants ook een aantal interessante mogelijkheden. Zo werkte een van de teams aan een tekstanalyse om het taalgebruik rondom verschillende thema’s (zoals racisme) in kaart te brengen.
Een tweede team keek naar geografische patronen in de berichtgeving rond corona-gerelateerd geweld, en er werd naar mogelijke verbanden tussen (het volume van) berichtgeving en persvrijheid in verschillende landen gekeken. Kortom: hoewel de datakwaliteit van de dataset nog altijd niet perfect is, valt er genoeg te onderzoeken met de COVID-19 Violence Tracker!
Benieuwd naar de dataset? Download hem hier.
Partners
We voerden dit project via onze stichting de Digital Power Datahub uit, samen met PeaceTech Lab. Daarnaast droegen onderstaande partners bij:
Meer weten?
Sanne, voorzitter van de pijler 'data doet goed' van de Digital Power Datahub, gaat graag met je in gesprek over wat we als datapartner voor jou en je organisatie kunnen betekenen.
Data Analistdatahub@digital-power.com
1x per maand data insights, praktijkcases en een kijkje achter de schermen ontvangen?
Meld je aan voor onze maillijst en blijf 'up to data':