ChatGPT en andere Large Language Models

Als ik het goed begrijp heb je de Gemini output nog eens manueel laten verwerken door 16 mensen. Goede check, die denk ik de meesten niet doen, en gewoon AI vertrouwen, wat m'n punt is.
Heb je er dan eigenlijk wel veel tijd/kost winst mee geboekt? Want je moet die AI alsnog goed babysitten.
Daarnaast, een PDF is vaak al een outputbestand, wat niet ideaal is om als data input te hebben. Nu met die LLM's lijken mensen dat ook te vergeten en structureler naar het probleem te kijken, bvb zoeken naar de echte brondata... Merci voor je insight

Ik blijf toch vrezen dat mensen door die AI corners cutten, in kwaliteiten inboeten, en de effecten pas in latere fase gaan zichtbaar zijn, en het dan moeilijk gaat zijn fouten te herstellen, want alles komt uit prompts ipv reproduceerdbare acties. I'm old

Stel, je krijgt opeens een nieuwe versie van je PDF, begin er maar aan dan met deze workflow. Uiteraard geen directe kritiek op jouw proces, ik probeer het te veralgemenen.
Zeer zeker winst mee geboekt. De originele PDF was een document met een kleine 60 bladzijden, het komt erop neer dat het de rekeningen waren van onze klanten die een achterstal hadden in hun premiebetaling. De PDF was in feite een verzameling van:

- Vervaldagberichten (rekening om je verzekeringspremie te betalen)
- Borderellen van de verzekeraars zelf
- Excel maar dan in PDF-output

Elke categorie met zijn eigen opmaak gezien er ongeveer 15 verzekeraars in deze bundel zaten. Met andere woorden, een fameuze kakafonie aan cijfermateriaal (en beeldmateriaal).

Zonder de 3 minuten dat Gemini nodig had om dit in Excel te pompen had ik:

- Handmatig de lijst moeten nagaan om te weten over hoeveel openstaande premies het ging;
- Vervolgens de lijst verdelen aan elke collega om te zorgen dat elks ca. 15 premies moest nagaan
- Vragen dat ze mij feedback bezorgen na hun handelingen (nagaan of inmiddels de premie betaald werd, zo niet, of ze klant gebeld hebben en wat er uit het telefonisch gesprek is gekomen (betaald of niet?))
- Vervolgens alle feedback handmatig in een Excel gaan pompen om te weten hoeveel openstaande premies we hadden en hoeveel er inmiddels dankzij onze acties aangezuiverd werden.

Nu had ik simpelweg 1 Excel waarbij ik op voorhand reeds wist wat de openstaande premies waren (en zelfs reeds kon filteren per klant/verzekeraar of sorteren op bedrag etc.) en had ik maar een Excel te verdelen onder de collega's met de vraag de Excel verder aan te vullen.

Ik schat dus dat ik toch enkele uren bespaard heb, dit was mijn oorspronkelijke prompt naar Gemini toe:

Bijgevoegde PDF is een lijst met klanten die rekeningen van verzekeringen nog niet betaald hebben. Dit is van verschillende verzekeraars, de opmaak kan dus totaal verschillend zijn voor de verschillende pagina's. Soms is er 1 bladzijde voor 1 verzekering die nog niet betaald is, soms zijn er op 1 bladzijde verschillende klanten tezamen. Kan je een Excel genereren waarbij volgende kolommen worden gemaakt en vervolgens worden ingevuld met de info terug te vinden in deze PDF:



- Naam verzekeringsnemer

- Verzekeraar

- Contractnummer

- Openstaande premie

- Verzekeringsperiode (voor welke de premie open staat)



Indien de informatie niet terug te vinden is om een bepaalde cel in te vullen mag je dit leeg laten

En zoals gezegd, werkte quasi feilloos. Heb dit ook reeds verschillende keren geprobeerd met Copilot en ChatGPT, voor beiden ging dit eigenlijk gewoon niet, tenzij ik de verschillende PDF's wat verzamelde per verzekeraar (wat dan inderdaad resulteerde in geen echte tijdswinst). Vanaf dat er 3-4 verschillende opmaken waren van verschillende verzekeraars leken beide programma's zich hierin te verslikken en skipten ze gewoon een hele resem aan bladzijden.

Sindsdien nog enkele keren gebruikt gezien we wekelijks deze overzichten trekken, werkt elke keer prima :)

-edit- Toch even benadrukken dat dat net mijn verbazing was, dat Gemini uit zo'n wirwar aan opmaak van de PDF wel gewoon de data eruit haalt. Stel dat een verzekeraar naar de toekomst toe de opmaak helemaal aanpast verwacht ik eerlijk gezegd ook niet dat Gemini daar een probleem mee zal hebben gezien het nu al een clusterf*ck is van 20-30 verschillend uitziende bladzijden.
 
Laatst bewerkt:
Ik vraag mij wel af of dat GDPR-gewijs mag, dergelijke documenten met klantgegevens, verzekeringsgegevens, etc uploaden naar Google, OpenAI, etc en daar laten verwerken.

Een paar maanden geleden hoorde ik dat een Europese bank hun eigen AI model draaide in de cloud voor know your customer (KYC) zaken, net om alles volledig in eigen handen te hebben en privacy shit te vermijden.
 
Ik vraag mij wel af of dat GDPR-gewijs mag, dergelijke documenten met klantgegevens, verzekeringsgegevens, etc uploaden naar Google, OpenAI, etc en daar laten verwerken.

Een paar maanden geleden hoorde ik dat een Europese bank hun eigen AI model draaide in de cloud voor know your customer (KYC) zaken, net om alles volledig in eigen handen te hebben en privacy shit te vermijden.
Hoezo zou dat niet mogen? Google verklaart zelf dat ze je data niet mogen inzien of gebruiken, wat wil je nog meer?

Idem bij Copilot en ChatGPT, staat ingesteld dat ze onze data niet mogen gebruiken... Zou anders maar wat gek zijn als je je data geeft aan die bedrijven, welke firma zou het dan nog gebruiken?
 
Hoezo zou dat niet mogen? Google verklaart zelf dat ze je data niet mogen inzien of gebruiken, wat wil je nog meer?

Idem bij Copilot en ChatGPT, staat ingesteld dat ze onze data niet mogen gebruiken... Zou anders maar wat gek zijn als je je data geeft aan die bedrijven, welke firma zou het dan nog gebruiken?
Gaat zelfs niet over het al dan niet mogen gebruiken van die data voor trainingsdoeleinden, maar puur al of je zo'n gevoelige persoonsgegevens niet-geanonimiseerd mag verzenden naar en laten verwerken door zo'n diensten. Aleija quasi geen enkel bedrijf is GDPR compliant, maar ik merk bij ons toch dat er de laatste tijd meer en meer zaken bij legal nagevraagd worden en dat daar bij zaken waar iedereen al jaren vanuit ging dat het geen probleem was, er toch een probleem is.
 
onlangs nog een ontwerp gemaakt met gemini en chatgpt.

Ben kwaad gaan slapen nadat ik ze uitgekakt heb 😂

Vanaf ze beginnen te zeggen dat ze afbeeldingen gaan tonen binnen de 10 minuten of een uur is het helemaal omzeep.

“Hier is je afbeelding”
En dan is er helemaal nieks
 
Gaat zelfs niet over het al dan niet mogen gebruiken van die data voor trainingsdoeleinden, maar puur al of je zo'n gevoelige persoonsgegevens niet-geanonimiseerd mag verzenden naar en laten verwerken door zo'n diensten. Aleija quasi geen enkel bedrijf is GDPR compliant, maar ik merk bij ons toch dat er de laatste tijd meer en meer zaken bij legal nagevraagd worden en dat daar bij zaken waar iedereen al jaren vanuit ging dat het geen probleem was, er toch een probleem is.
In onze sector dienen de klanten een klantenfiche te ondertekenen waarop vermeld staat hoe we de data van de klanten opslaan en gebruiken. Ik vermoed dat dit nog anders is dan sectoren waar dit niet verplicht is of gedaan wordt.
 
onlangs nog een ontwerp gemaakt met gemini en chatgpt.

Ben kwaad gaan slapen nadat ik ze uitgekakt heb 😂

Vanaf ze beginnen te zeggen dat ze afbeeldingen gaan tonen binnen de 10 minuten of een uur is het helemaal omzeep.

“Hier is je afbeelding”
En dan is er helemaal nieks
Ik heb de indruk dat heel die AI hype toch al serieus verminderd is. Elke keer ik iets wil, zoals ik het in mijn hoofd heb, loopt het fout af.

Het kan fantastische zaken, maar tekst op een foto is ook bv teveel gevraagd. Raar. Ik steek er mijn tijd niet meer in, ik doe het vlug zelf in Adobe.
 
Zonet eens Gemini 3 gebruikt voor data-extractie uit een PDF van ca. 50 blz'en... Doet dit geweldig. Dit is iets waar zowel ChatGPT alsook Copilot enorm veel moeite mee hebben en het gewoon niet lukt. Gemini met 1 prompt van de eerste keer feilloos de data eruit gehaald en kunnen extraheren naar een Excelsheet van 200 lijntjes.

Zeer sterk.
Betalende versie? Ik heb ook zo een oplossing geindustrialiseerd op het werk dat op dagelijkse basis enorm veel doet en correct. Met den openai api.
Zelf eerst honderden documenten zelf gecontroleerd en ik was toen echt verbaasd dat ik een 100% succesrate had. Maakte het natuurlijk moeilijker om na te denken hoe ik typische fouten zou kunnen mitigeren. Het was dan ook wel voor een eenvoudige extractie, maar toch.

@hierboven: natuurlijk wel mee zijn met hoe alles onderzocht en getest wordt hé. Een standalone LLM zou ik niet rap vertrouwen voor de extractie en verwerking, zeker niet als het gaat om belangrijke documenten. De combinatie met een critic/judge daarentegen geeft gewoon fantastische resultaten. Eens je dat principe door hebt begrijp je niet alleen hoe agentic-ai zal werken, maar ook hoe je ervoor kan zorgen dat je het aan de juiste taken kunt toevertrouwen, zonder meer fouten te zien dan een mens zou maken.
 
Als zo’n LLM niet steeds dezelfde output geeft, kan het niet anders dat het maar wat ratelt.

Ik vraag mij dan ook af of in bovenstaand voorbeeld van Vega (PDF opdracht) een andere user op een andere computer met dezelfde vraag ook dezelfde output zou krijgen.
 
Als zo’n LLM niet steeds dezelfde output geeft, kan het niet anders dat het maar wat ratelt.

Ik vraag mij dan ook af of in bovenstaand voorbeeld van Vega (PDF opdracht) een andere user op een andere computer met dezelfde vraag ook dezelfde output zou krijgen.
Vermoedelijk niet.

Op het werk al vaker met 2 mensen zelfde prompts gebruikt en andere input gekregen.

Onlangs nog. Had 180 facturen in PDF-vorm en wou daar een overzichtelijk Excel-overzicht van. CoPilot gebruikt, duurde toch een prompt of 5 vooraleer die begrepen had wat hij nu moest doen. Dat laatste prompt dan op meerdere pc's gebruikt en toch... niet dezelfde output.
 
Bij een overzicht vind ik dat nu geen probleem. Ik had het eerder over een vraag die maar 1 antwoord heeft. We zouden het eigenlijk eens moeten testen 😊
 
Bij een overzicht vind ik dat nu geen probleem. Ik had het eerder over een vraag die maar 1 antwoord heeft. We zouden het eigenlijk eens moeten testen 😊
Als bij 2 op de 4 resultaten de inhoud niet volledig is met hetzelfde prompt, vind ik dat toch zorgwekkend :D
 
Een overzicht is toch een ander woord voor een samenvatting en kan toch verschillende resultaten hebben? Of bekijk ik dat nu zo verkeerd?
 
Een overzicht is toch een ander woord voor een samenvatting en kan toch verschillende resultaten hebben? Of bekijk ik dat nu zo verkeerd?
In deze context niet. Als ik 178 facturen heb, en ik vraag hem om uit elke factuur 3 data te extraheren, mag ik geen andere info als eindresultaat krijgen. Lay-out van elke factuur was hetzelfde, etc. Als het over een samenvatting van tekst gaat, heb je natuurlijk 200 % gelijk.
 
Je kan de voorspelbaarheid van een LLM model tweaken met de temperatuur settings. Bij een lage setting wordt je model voorzichtiger en kiest het bijna altijd voor het woord met de hoogste score in zijn voorspelling. Dat leidt tot stabielere antwoorden.

Een hogere temperatuur leidt dan weer tot een meer creatief en onvoorspelbaar antwoord.

Hoe goed je modellen gaan presteren hangt dan weer af van je trainingsdata. De openbare taalmodellen die we nu gebruiken is spielerei om data te verzamelen. Ze bevatten zoveel informatie dat ze wel eens kunnen afwijken en gaan freewheelen. Ook met een lagere temperatuur.

Maar met de juiste trainingsdata en instructies zijn AI systemen niet te verslaan. Kijk maar naar Alphafold of Alphastar bijvoorbeeld. Systemen die van zichzelf leren hoe ze effecienter moeten werken om tot betere resultaten te komen. Dat zijn degene om in de gaten te houden. En believe me, daar zijn we zeker niet op een plateau gekomen.
 
Je kan de voorspelbaarheid van een LLM model tweaken met de temperatuur settings. Bij een lage setting wordt je model voorzichtiger en kiest het bijna altijd voor het woord met de hoogste score in zijn voorspelling. Dat leidt tot stabielere antwoorden.

Een hogere temperatuur leidt dan weer tot een meer creatief en onvoorspelbaar antwoord.

Hoe goed je modellen gaan presteren hangt dan weer af van je trainingsdata. De openbare taalmodellen die we nu gebruiken is spielerei om data te verzamelen. Ze bevatten zoveel informatie dat ze wel eens kunnen afwijken en gaan freewheelen. Ook met een lagere temperatuur.

Maar met de juiste trainingsdata en instructies zijn AI systemen niet te verslaan. Kijk maar naar Alphafold of Alphastar bijvoorbeeld. Systemen die van zichzelf leren hoe ze effecienter moeten werken om tot betere resultaten te komen. Dat zijn degene om in de gaten te houden. En believe me, daar zijn we zeker niet op een plateau gekomen.
Klop, maar zelfs met een heel lage temperatuur, is waarheidsgetrouwheid een bijproduct, geen eigenschap.
En ja, het wordt betrouwbaarder hoe meer correcte info je erin stopt, maar als het hier gaat over data-extractie, zit je ondertussen al wel aan een heel arbeidsintensief proces en gigantische technische set-up en energiekost, voor wat uiteindelijk daarvoor ook ging met een slim opgesteld document en een macro. Als je dan via een LLM gaat, is het achterliggend héél veel slimmer, maar qua output is het verschil er amper. En dat zie je op heel veel punten, waar een LLM gebruikt wordt voor zaken die eigenlijk niet in de core functies van een LLM liggen.

Soms zelfs binnen de core functies. Ik zit in de vertaalwereld, meer core dan dat kun je niet gaan voor LLM's. En als je puur kijkt naar de resultaten, is het echt nog héél erbarmelijk in vergelijking met machinevertalingen van 5 jaar geleden. Het is echt amper beter, denk dat je ze niet van elkaar kunt onderscheiden. Toegegeven, de bestanden worden nu op een veel "slimmere" manier door de computer bedacht, maar daar ben je niks mee als het resultaat nog hetzelfde is. De kans dat door die slimmere manier de sprongen veel groter zullen zijn en we veel sneller op een aanvaardbare plek kunnen komen, is heel groot. Maar die beloven ze nu ook al lang, en de sprongen worden stillaan telkens kleiner en kleiner. Dààrom twijfelen de mensen over LLM's die overal de productie enorm zullen vergroten zonder extra kosten.
 
Terug
Bovenaan