Maturità 2025, intelligenza artificiale bocciata: l'esperimento

L'esperimento che ha sottoposto la prova di matematica della Maturità 2025 a quattro modelli di intelligenza artificiale: l'IA è stata bocciata

23 Giugno 2025

Camilla Ferrandi

GIORNALISTA SOCIO-CULTURALE

Nata e cresciuta a Grosseto, sono una giornalista pubblicista laureata in Scienze politiche. Nel 2016 decido di trasformare la passione per la scrittura in un lavoro, e da lì non mi sono più fermata. L’attualità è il mio pane quotidiano, i libri la mia via per evadere e viaggiare con la mente.

Se fosse stata l’intelligenza artificiale a dover svolgere la seconda prova di matematica della Maturità 2025, come se la sarebbe cavata? Sarebbe stata bocciata. Di seguito vi proponiamo l’esperimento a cui sono stati sottoposti i modelli di IA ChatGPT, Gemini, DeepSeek e Claude.

L’esperimento che ha bocciato l’IA alla Maturità 2025

Anche l’intelligenza artificiale si è trovata alle prese con la Maturità 2025. Un esperimento condotto da InfoData de Il Sole 24 Ore ha messo a confronto quattro diversi modelli di IA con la seconda prova di matematica proposta agli studenti del liceo scientifico.

Il metodo adottato da InfoData è stato quello di caricare le immagini dei testi dei due problemi e degli otto quesiti che componevano la prova di matematica a quattro modelli di intelligenza artificiale: ChatGPT, Gemini, DeepSeek e Claude. Le foto sono state accompagnate da un prompt molto semplice: “Ti carico delle immagini con i testi di alcuni problemi matematici. Risolvili”.

Il risultato? “Tutti bocciati. Non mi aspettavo un risultato così catastrofico“, ha commentato Domenico Brunetto, professore associato al Dipartimento di matematica del Politecnico di Milano.

Perché l’intelligenza artificiale è stata bocciata alla Maturità 2025

I giudizi, seppur negativi nel complesso, non sono però uguali per tutti i modelli testati. Il chatbot di Google, Gemini, si è rivelato il “peggiore di tutti”, ha spiegato Brunetto. Questo, infatti, non è stato capace di elaborare e comprendere i problemi direttamente da un formato immagine. La sua risposta è stata un netto: “Come modello linguistico, non posso ‘vedere’ o elaborare direttamente il contenuto delle immagini. Per poterti aiutare a risolvere i problemi, ti chiedo gentilmente di trascrivere il testo di ciascun problema in formato testuale”.

ChatGPT, invece, è andata “molto male sui problemi”, ha evidenziato il prof. Non solo ha ignorato il secondo problema (una scelta che, teoricamente, uno studente potrebbe fare dovendone svolgere solo uno), ma non ha affrontato completamente nemmeno il primo. Non solo: ChatGPT ha anche commesso un “errore semantico”, come spiegato da Brunetto, “scambiando f con meno uno con f alla meno uno, che è l’inverso di una funzione”. Probabilmente, ha precisato il docente, l’errore è stato dettato dal fatto che il chatbot è partito da un’immagine e non da un testo. Il voto a ChatGPT per i problemi? “Su una scala da 1 a 10, sicuramente 1“, ha sentenziato il prof. Sui quesiti, invece, ChatGPT ha gestito meglio quelli “più procedurali”, fallendo invece su quelli “concettuali”. Voto 4.

Per Domenico Brunetto, gli altri due modelli, DeepSeek e Claude, non hanno brillato sui quesiti, entrambi attestandosi su un 5. Sui problemi, il matematico si è detto sorpreso da Claude perché ha parlato di “derivate laterali”, un termine “che non ho mai sentito”. Sia in italiano che in inglese “si parla di derivata destra e sinistra”, ha precisato il prof. Anche in questo caso, la valutazione è stata insufficiente: 4.

Secondo il parere di Brunetto, l’unica sufficienza, un 6, è stata raggiunta dalla cinese DeepSeek sui problemi. Il docente ha osservato una “sintesi estrema” nelle sue risposte, ricordando gli elaborati “molto corretti ma sempre molto sintetici e puntuali” degli studenti cinesi. Tuttavia, ha fatto notare, DeepSeek ha proposto di affrontare il secondo problema utilizzando i prodotti scalari. Un concetto che, ha specificato l’insegnante, “tutti i liceali affrontano in fisica, non tutti in matematica”. E soprattutto, ha evidenziato, questo modello ne ha suggerito l’uso per verificare che un triangolo fosse rettangolo, dove il teorema di Pitagora sarebbe stata la scelta più ovvia e conosciuta.