l'esperimento di un linguista

ChatGPT supera l'esame di Maturità in Olanda a pieni voti: "Punteggio maggiore degli studenti, siamo entrati in una nuova era"

Il linguista Marc van Oostendorp ha sottoposto la versione gratuita del chatbot basato sull'Intelligenza Artificiale ai test del VWO, il liceo dei Paesi Bassi. Il voto ottenuto è stato di 9,8, che "praticamente nessuno maturando riesce a prendere"

31 Mag 2023 - 10:50

ChatGPT supera l'esame di Maturità in Olanda. E con un voto di tutto rispetto: 9,8, "che nessuno studente riesce praticamente a raggiungere". L'esperimento è stato condotto dal professore della Radboud University (Università cattolica di Nimega) Marc van Oostendorp di Rotterdam e i risultati sono stati pubblicati sulla rivista online di linguistica, letteratura e competenza linguistica olandesi Neerlandistiek. "Credo che un anno fa nessuno avrebbe pensato che ci sarebbe stato un computer in grado di sostenere l'esame finale delle superiori, siamo davvero entrati in una nuova era", il commento del ricercatore.

"Alcuni - è la premessa - si sono chiesti perché parlassi della versione accessibile gratuita (3.5) di chatGPT invece di quella a pagamento (4.0), che è migliore. Ho voluto solo testare quante risposte gratuite puoi ora ottenere con un software accessibile, ma Jos Mulder ha eseguito i testi per me attraverso la nuova versione e in effetti il risultato è maggiore. Invece di 33 punti su 60, la nuova versione supera facilmente l'esame, con 50 punti su 60".

"La discussione sul fatto che si misuri davvero la comprensione del testo è complessa, - spiega Marc van Oostendorp, che oltre a essere linguista è anche giornalista - perché in un certo senso i chatbot non sembrano capire veramente cosa viene loro presentato e a cosa rispondono correttamente. Ma questa discussione è molto filosofica e fino a quando non avremo test alternativi che misurino la comprensione 'reale' e siano fatti bene dagli umani e non dai robot, non sappiamo nemmeno quali siano le conseguenze pratiche".

"Con la versione economica di ChatGPT, inoltre, i pochi problemi che ci sono - continua il ricercatore - non sono tanto nel saper indicare come è composto il testo, ma capire le convenzioni di un esame. Confrontare i testi tra loro non è fattibile, ma forse principalmente perché il primo testo viene dimenticato mentre si risponde alle domande sul secondo testo. Un altro problema è che ChatGPT non è in grado di contare correttamente – non indifferente per un computer – e dà risposte troppo lunghe. Se c'è un limite di, diciamo, 30 parole, lo supererà. Quando correggi, puoi solo guardare le prime 30 parole e magari la risposta corretta non è presente".

Questo il presente. Ma guardando al futuro? "Se il computer riesce a trovare le risposte, - continua nella sua relazione van Oostendorp - potrebbe anche essere in grado di valutarle. Al momento non osiamo affidare la correzione interamente al computer, ma esso potrebbe forse fare da secondo correttore, per vedere se l'insegnante vero e proprio ha svolto il lavoro giustamente".

"Un passo successivo nelle successive versioni - conclude il docente sperimentatore - potrebbe essere che ChatGPT crei gli esami da solo. Quindi ogni studente potrà sostenere un esame su misura, in un momento scelto da sé".

"La cosa interessante - ha commentato la linguista Roberta D'Alessandro dell'Università di Utrecht, diffondendo in Italia la notizia dell'esperimento - è che l'esame di maturità olandese comprende una parte che si chiama 'begrijpend lezen', e cioè comprensione del testo. Lo studente deve capire le implicazioni del testo, quello che viene suggerito ma non detto, eccetera. Ecco: ChatGPT ci è riuscita benissimo, a capire. Ha capito tutto perfettamente. All'esame di francese, ChatGPT ha preso un bell'8".

"Altrettanto interessante - conclude nel suo post D'Alessandro - è che ChatGPT abbia miseramente fallito l’esame dell’MBO, cioè la maturità delle scuole professionali. L'intelligenza c’è, ma come si fanno le cose in pratica ChatGPT lo ignora (era un testo anche quello, non un esame pratico, ndr)".

Ti potrebbe interessare

Commenti (0)

Disclaimer
Inizia la discussione
0/300 caratteri