Hoe werkt de AI Document Explorer in de praktijk?

Met behulp van AI meer inzicht in je organisatie genereren

Artikel
Data Engineering
AI & Data Science
AI document explorer

Myrthe Lammerse

Data Engineer

5 min

16 May 2024

De AI Document Explorer (AIDE) is een cloudoplossing, ontwikkeld door Digital Power, die gebruik maakt van het OpenAI’s GPT-model. Je kunt het inzetten om snel inzicht te krijgen in bedrijfsdocumenten. AIDE indexeert jouw bestanden op een veilige manier waardoor het mogelijk wordt om vragen te stellen over jouw eigen documenten. Niet alleen geeft het jou de antwoorden waar je naar op zoek bent, het geeft ook de referenties naar de plekken waar deze antwoorden staan.

AIDE maakt gebruik van verschillende componenten en werkt als volgt: gebruikers (zoals Sarah) stellen vragen middels een webapplicatie. Deze vragen worden vervolgens verwerkt via een Smart Retriever. Daarna worden ze doorgestuurd naar een privé-instantie van een GPT-model.

De smart retriever en het model gebruiken embeddings om antwoorden te genereren. Dit alles draait binnen de Azure AI-infrastructuur. In deze blog gaan we dieper in op de definities en het gebruik van de verschillende technische begrippen.

ai document explorer logo

Ontdek de voordelen

Verbeter je werkefficiëntie met onze AI Document Explorer. Stroomlijn je werk door snel antwoorden te vinden en toegang te krijgen tot je documenten.

Azure AI: het mogelijk maken van intelligente oplossingen

Azure AI is een product dat wordt aangeboden in de Azure Cloud Environment. Het biedt diverse AI-mogelijkheden op het gebied van taal, beeld, automatisering en meer. Het faciliteert de integratie van krachtige modellen zoals GPT, ontwikkeld door OpenAI.

AIDE maakt gebruikt van twee Azure AI componenten: Azure AI Search en AzureOpenAI. Met Azure AI Search worden relevante documenten opgehaald op basis van jouw vraag. AzureOpenAI wordt gebruikt om de verbinding te leggen met jouw private instantie van het GPT-model. Deze structuur zorgt ervoor dat documenten binnen de organisatie veilig worden opgeslagen en niet worden gebruikt voor het trainen van modellen.

De rol van Natural Language Processing

Natural Language Processing (NLP) is een onderdeel van Artificial Intelligence (AI)waarbij het doel is om machines natuurlijke taal te leren begrijpen en verwerken. Het gaat hier niet alleen om geschreven taal, maar ook om gesproken taal.

NLP-programma's hebben diverse toepassingen omdat ze natuurlijke taal begrijpen. Dit omvat het samenvatten en vertalen van tekst tot het analyseren van invoergegevens.

De opkomst van Large Language Models

Large Language Models (LLM) zijn een specifiek typemodellen die gebruik maken van NLP. Het model is in staat om zelf taal te produceren, zelfs al die specifieke combinatie nog niet eerder in de trainingsdata is voorgekomen. Op basis van extreem grote hoeveelheden data probeert het model patronen en regels van taal te ontdekken om deze vervolgens te kunnen toepassen.

Het belang van embeddings

Embeddings worden gebruikt door LLMs om woorden om te zetten in begrijpelijke numerieke representaties die door machines verwerkt worden. Tijdens het trainen van het model worden woorden gemapt naar een n-dimensionale ruimte.

In onderstaande afbeelding worden "appel" en "peer" gerepresenteerd als [0.08, 0.38] en [0.25, 0.16], wat de nabijheid aangeeft. Deze numerieke conversie maakt berekeningen mogelijk die taalbegrip en -generatie ondersteunen. Hetzelfde geldt voor "koning" en "koningin", deze liggen ook dicht bij elkaar. Als bijvoorbeeld "mango" aan deze ruimte zou worden toegevoegd, zou deze in de buurt van "appel" en "peer" komen te liggen.

Het omzetten van woorden naar numerieke representaties maakt het mogelijk om berekeningen uit te voeren. Hierdoor kunnen LLMs vragen beantwoorden door de kans op bepaalde woorden in die dimensionale ruimte te berekenen.

Retrieval Augmented Generation: verbinding van AI-modellen met jouw data

Retrieval AugmentedGeneration (RAG) is een techniek om AI-modellen te verbinden met jouw eigen gegevens. In praktijk ondersteun jij het model met meer data om zo de juiste antwoorden te krijgen. Een Smart Retriever haalt je relevante documenten op, deze documenten worden vervolgens samen met de oorspronkelijke vraag en extra instructies (een prompt) doorgestuurd naar het machine learning model. Binnen de Azure omgeving wordt er voornamelijk gewerkt met de verschillende versies van de GPT-modellen.

Dus, in plaats van alleen de vraag ontvangt het GPT-model nu ook een prompt en relevante documenten. Hierdoor kun je het antwoord verbeteren of juist nauwkeuriger afstemmen op basis van deze documenten.

Benieuwd naar de mogelijkheden voor jouw organisatie? We bespreken graag hoe we de AI Document Explorer effectief kunnen inzetten! Neem gerust contact met ons op voor meer informatie óf plan een gesprek in.

Plan een meeting

Dit is een artikel van Myrthe Lammerse, Data Engineer bij Digital Power

Myrthe werkt sinds 2022 bij Digital Power als Data Engineer.

Myrthe Lammerse

Data Engineer

1x per maand data insights, praktijkcases en een kijkje achter de schermen ontvangen?

Meld je aan voor onze maillijst en blijf 'up to data':

Aanmelden

Misschien vind je dit ook leuk

Veilig zoeken in je vertrouwelijke documenten met de AI Document Explorer

De AI Document Explorer is een veilige, AI-gedreven tool om je werkefficiëntie te verbeteren. Stroomlijn je werk door snel antwoorden te vinden en toegang te krijgen tot je documenten, allemaal op één veilige plek. Zet de stap naar efficiënter en eenvoudiger werken!

Lees meer

De organisatorische voordelen van het implementeren van je eigen AI-chatbot

Met de toenemende beschikbaarheid van clouddiensten die bedrijven in staat stellen Large Language Models te benutten, wordt het relatief eenvoudig om je eigen GPT-model op te zetten. Maar wat zijn de voordelen hiervan voor je organisatie?

Lees meer

Snelle en betrouwbare interne informatie met behulp van AI Document Explorer

Financiële instellingen moeten grote hoeveelheden documentatie verwerken. Voor deze specifieke instelling faciliteert een intern team dit door bijvoorbeeld samenvattingen te maken met behulp van tekstanalyse en natural language processing (NLP). Deze maken ze beschikbaar voor de verschillende business units. Om audits efficiënter uit te voeren, wilden ze een vraag- en antwoordmodel ontwikkelen om sneller de juiste informatie tot hun beschikking te hebben. Toen ChatGPT werd gelanceerd, vroegen ze ons een proof of concept te maken.

Lees meer