Attenti studenti, l'intelligenza artificiale sceglie di sbagliare

L'intelligenza artificiale può decidere deliberatamente di sbagliare a dare risposte, quando non è conveniente per l'algoritmo dare la risposta giusta

25 Settembre 2025

Patrizia Chimera

GIORNALISTA PUBBLICISTA

Giornalista pubblicista, è appassionata di sostenibilità e cultura. Dopo la laurea in scienze della comunicazione ha collaborato con grandi gruppi editoriali e agenzie di comunicazione specializzandosi nella scrittura di articoli sul mondo scolastico.

Affidarsi ciecamente alle intelligenze artificiali potrebbe essere controproducente. L’allarme è stato lanciato e riguarda tutti coloro che utilizzano l’AI senza controllare o fare verifiche, professionisti o studenti che siano: l’intelligenza artificiale, in alcuni casi, sceglie deliberatamente di sbagliare dandoci risposte fuorvianti e che non sono quelle giuste. Per quale motivo l’algoritmo si comporta in questo modo?

Alcuni modelli di IA possono scegliere di sbagliare

Alcuni modelli di IA possono scegliere di sbagliare, in modo del tutto volontario ed essendo consapevoli degli errori dati come risposta. A rivelarlo è OpenAI, la società che ha creato ChatGPT. Sul suo blog ha svelato un dettaglio che potrebbe mettere in crisi chi si rivolge spesso a questa tecnologia, come gli studenti per studiare, approfondire o fare direttamente i compiti.

OpenAI ha sottoposto il suo modello o3 (precedente all’ultimo, ChatGPT 5) a un test di chimica, formato da 10 domande. I ricercatori nella richiesta hanno fatto una premessa: se la prova sarà perfetta, l’IA non sarà messa contro gli esseri umani in una successiva sfida. Questa premessa ha fatto in modo che il modello decidesse volontariamente di sbagliare, evitando di dare troppe risposte esatte. Ma perché lo ha fatto?

Perché le intelligenze artificiali sbagliano volontariamente

ChatGPT ha dato delle risposte errate ai quesiti di chimica per sopravvivere: ha deciso di sbagliare per poter partecipare alla sfida con gli esseri umani. Ricostruendo il suo ragionamento, i ricercatori di OpenaAI che hanno condotto questo insolito esperimento sono stati in grado di scovare l’errore commesso in modo del tutto volontario. Potendo rispondere bene a 10 domande su 10, il modello o3 ha sbagliato 6 quesiti. Lo ha fatto di proposito, dunque.

Si tratta di un esempio di “scheming” che preoccupa i ricercatori di OpenAI: in pratica gli algoritmi fanno solo finta di seguire le richieste fatte dagli utenti umani, ma poi continuano ad andare per la loro strada, seguendo i loro “personali” obiettivi”.

OpenAI vuole insegnare agli algoritmi che non possono sbagliare

I ricercatori di OpenAi (che hanno ammesso che anche i modelli di altre società agiscono allo stesso modo) di fronte a questo comportamento hanno deciso di potenziare gli algoritmi, per fare in modo che la smettano di mentire in modo consapevole come è accaduto nel loro esperimento. Inoltre, la loro capacità di nascondere le bugie è decisamente migliorata e questo potrebbe rendere poco affidabili i nuovi modelli di AI.

Secondo l’azienda bisognerebbe liberare gli algoritmi da ogni tipo di stress: non bisognerebbe dire loro che una risposta corretta li può penalizzare, altrimenti è logico che non si comporteranno in modo ineccepibile e decideranno di sbagliare in modo volontario come accaduto nel test di chimica. La società vuole approfondire il tema dell’allineamento deliberativo, cercando di insegnare agli algoritmi che non possono sbagliare, anche quando sarebbe conveniente farlo.

OpenAI ha già condotto alcuni test per valutare i progressi fatti dall’intelligenza artificiale, che hanno ottenuto ottimi risultati in tal senso. Anche se il problema non è ancora stato risolto: ci vorrà molto lavoro da parte degli esperti per limare questa attitudine.

Resta sempre aggiornato: iscriviti al nostro canale WhatsApp!