Kwalitatieve onderzoekers vervangen door AI, een goede beslissing?
Praktische voorbeelden van AI versus de menselijke onderzoeker
- Artikel
- Research
Artificial Intelligence lijkt alles te kunnen, en soms zelfs beter en sneller dan dat we het zelf kunnen doen. Het analyseren van kwalitatieve data is een tijdrovende klus, waarvan we als onderzoekers nieuwsgierig zijn of het sneller en gemakkelijker kan. Biedt AI hiervoor een oplossing? Onze onderzoekers zochten het uit.
Aanpak
Artificial Intelligence is overal in het nieuws en wordt steeds breder ingezet, onder andere voor de analyse van kwalitatieve data. Je wilt natuurlijk niet dat gebruik van AI tot een verlaging van je kwaliteitsstandaard leidt. Wij zochten voor je uit wat de kwaliteit is van kwalitatieve analyses gedaan met AI-tools.
Voor dit onderzoek gebruikten we verschillende AI-tools (ChatGPT 4.0, Survalyzer, Atlas.ti) en een eigen unsupervised clustering model (Python) om open antwoorden van vragenlijsten te analyseren. Deze antwoorden hadden we eerder al handmatig geanalyseerd. In dit artikel de resultaten van onze test: AI versus Digital Power-onderzoeker.
AI vs. Onderzoeker: bevindingen
Black box & verzonnen resultaten
Veel AI-tools zijn 'black boxes': het is erg moeilijk om inzicht te krijgen in hoe ze tot hun resultaten komen. Voor wetenschappelijk onderzoek is het van cruciaal belang dat analyses kunnen worden gerepliceerd, wat door de black box niet mogelijk is. Daarnaast is het door deze ‘black box’ vaak amper mogelijk om de analyse van de AI-tool te checken: welke data is op welke manier gecategoriseerd?
Een voorbeeld hiervan kwamen we tegen tijdens onze poging tot een analyse van kwalitatieve data met ChatGPT 4.0. Als we vroegen om een lijst met de voornaamste bevindingen uit de data, kregen we ook ‘bevindingen’ die helemaal niet voorkwamen in de data, maar die wel realistisch leken. Dit zagen we alleen omdat we zelf al goed op de hoogte waren van de inhoud van de data door onze ‘menselijke’ analyse. Hierin zit een van de belangrijkste valkuilen van ChatGPT: het verkondigt op zelfverzekerde toon informatie die mogelijk niet klopt.
Categorisatie in eigen categorieën
In Survalyzer (een tool die gebruikt maakt van ChatGPT) voegden we onze eigen categorieën toe. We gebruikten de tool om de open antwoorden te categoriseren. Maar een fractie (rond de 10 procent) van de antwoorden werd aan een categorie toegewezen. Ook zagen we in deze categorisatie veel inconsistentie: zo werd het antwoord ‘hoge reiskosten’ bijvoorbeeld niet toegevoegd aan de categorie ‘reizen’, maar het antwoord ‘reiskosten’ wel.
Een ander struikelblok was dat AI-gegenereerde resultaten vaak in de categorie 'overig' werden geplaatst. Hierdoor gingen waardevolle inzichten verloren. Onze handmatige categorisatie bleek in veel gevallen effectiever, met een grotere proportie data die gecategoriseerd werd in een bijpassend thema.
Categorisatie in door AI-gegenereerde categorieën
AI-tools kunnen ook gebruikt worden om (eerst) categorieën te laten genereren, waarin de data vervolgens gecategoriseerd wordt. De tools creëerden soms ontzettend veel categorieën, die te gedetailleerd waren. Zo werden in AtlasTi meer dan honderd categorieën gecreëerd voor de analyse van één open vraag. Dit maakt het lastig om zinvolle, overkoepelende inzichten te verkrijgen met categorieën die representatief zijn voor een groter deel van de data.
Voor het unsupervised clustering model geldt dat zelf code schrijven voor deze analyse veel tijd kost, net als een handmatige analyse. Het model moet daarnaast voldoende informatie (dus antwoorden in open vragen) hebben om iets nuttigs te kunnen zeggen.
AI: nuttig voor kwalitatieve analyse, of niet?
Het gebruik van AI-tools voor het analyseren van open surveyvragen is op dit moment van weinig toegevoegde waarde. Op dit moment is AI nog niet zo ver dat je je data zomaar in een tool kunt gooien en dat hier vervolgens betrouwbare resultaten uitkomen. Uiteraard wordt er hard gewerkt aan het verbeteren van deze tools, maar tot die tijd zal er nog veel handmatig werk plaats moeten vinden. Dat betekent zeker niet dat we geen mogelijkheden zien voor het gebruik van AI voor kwalitatieve analyses.
Wanneer zou AI nuttig kunnen zijn?
- Als er al bestaande, eenduidige categorieën zijn die nauw aansluiten bij de data: een demo van Survalyzer laat hierin veelbelovende resultaten zien, ook al was dit bij onze data niet het geval. Je zult de categorieën wel eerst handmatig op basis van een substantiële subset van de data moeten maken. Dit zal een iteratief proces zijn, waarbij je moet controleren in hoeverre de categorieën bruikbaar zijn voor de AI-tool.
- Bij zeer grote datasets: hoe groter de dataset, hoe meer data gebruikt kan worden om op te trainen. Ook zal de voorbereiding, zoals hierboven beschreven, het vooral waard zijn bij grotere datasets.
- Als aanvullende controle op handmatige analyses, waarbij je je eigen resultaten toetst op bias: in de wetenschappelijke wereld wordt vaak gebruik gemaakt van controles door peers, zoals peer reviews van artikelen, het reproduceren van onderzoek of het berekenen van de inter-rater reliability (de mate van overeenstemming tussen meerdere onafhankelijke beoordelaars die dezelfde analyse uitvoeren). In de praktijk kost het vaak te veel tijd om deze controles door collega-onderzoekers uit te laten voeren. Een extra check, bijvoorbeeld door een AI-tool, kan dan uitkomst bieden. Bij gebrek aan beschikbaarheid van mede-onderzoekers kan zo gecheckt worden op gemiste inzichten en bias.
Conclusie: de menselijke onderzoeker wint (voorlopig) van AI
Op het moment zijn we tegen te veel problemen en beperkingen aangelopen om voor kwalitatieve analyse te vertrouwen op AI-tools. Ook in de nabije toekomst raden we aan om bij onderzoek waar diepgaande kennis van de data vereist is, voorkeur te geven aan menselijke onderzoekers boven AI-functionaliteiten.
Bij Digital Power blijven we echter de ontwikkelingen in de AI-wereld volgen en staan we open voor nieuwe mogelijkheden. We zijn ervan overtuigd dat AI een waardevolle rol kan spelen in de toekomst van onderzoek, maar vinden het essentieel dat mensen de grenzen en beperkingen van AI begrijpen en kritisch evalueren.
Ten slotte: wat vindt ChatGPT er eigenlijk zelf van?
“ChatGPT en vergelijkbare AI-modellen kunnen nuttig zijn bij de analyse van kwalitatieve data uit open survey vragen, maar er zijn beperkingen. Ze moeten worden getraind en gevalideerd, en kunnen bevooroordeeld zijn. Menselijke expertise blijft belangrijk voor diepgaande inzichten en het corrigeren van fouten. AI kan vooral handig zijn bij grote datasets om patronen te ontdekken, maar moet worden aangevuld met menselijke analyse voor nauwkeurigheid en context.”
Hier kunnen we ons wel in vinden.
*De hulp van ChatGPT is ingeroepen om dit artikel te schrijven, maar voldeed helaas niet aan onze verwachtingen.
Dit is een artikel van Marit
Marit is onderzoeker bij Digital Power en wordt enthousiast van het inzetten van kwalitatieve en kwantitatieve onderzoeksmethodes voor het begrijpen van menselijk gedrag, gedachtes en behoeftes. Met haar achtergrond in Human-Technology Interaction combineert ze haar kennis van psychologie, onderzoek en data analyse om tot inzichten en oplossingen te komen die bijdragen aan een betere gebruikerservaring. Team Lead Research Mieke Kleppe is co-auteur van dit artikel.
1x per maand data insights, praktijkcases en een kijkje achter de schermen ontvangen?
Meld je aan voor onze maillijst en blijf 'up to data':