I modelli di reasoning dell’intelligenza artificiale superano tutti i livelli dell’esame CFA

L’intelligenza artificiale conquista la certificazione finanziaria più prestigiosa

Un recente studio condotto da ricercatori della Columbia University, del Rensselaer Polytechnic Institute e dell’University of North Carolina ha dimostrato come i più avanzati modelli di reasoning dell’intelligenza artificiale siano ora in grado di superare brillantemente tutti e tre i livelli dell’esame CFA (Chartered Financial Analyst). Gemini 3.0 Pro ha stabilito un record assoluto raggiungendo un punteggio straordinario del 97,6% al primo livello.

La certificazione CFA rappresenta una delle qualifiche professionali più difficili da ottenere nel settore finanziario. L’esame articolato in tre fasi progressive valuta competenze sempre più complesse: dalla conoscenza fondamentale all’applicazione pratica, dall’analisi approfondita fino alla costruzione di portafogli di investimento sofisticati.

L’evoluzione delle capacità dell’intelligenza artificiale negli esami finanziari

Nel 2023 i modelli linguistici disponibili mostravano già qualche competenza nel rispondere alle domande dell’esame CFA, ma con risultati estremamente variabili. ChatGPT versione 3.5 non riusciva a superare né il primo né il secondo livello. GPT-4 era in grado di passare solamente il livello iniziale, fallendo al secondo tentativo.

Il vero punto di svolta si è avuto con GPT-4o che, operando come modello linguistico puro, è riuscito finalmente a superare tutti e tre i livelli dell’esame. Questo risultato ha segnato l’inizio di una nuova era per l’applicazione dell’intelligenza artificiale nel settore finanziario.

La metodologia dello studio e i risultati ottenuti

I ricercatori hanno sottoposto sei modelli di reasoning avanzati a un totale di 980 domande d’esame distribuite attraverso i tre livelli di difficoltà. Nel dettaglio:

  • Tre esami di livello I con 540 domande a scelta multipla
  • Due esami di livello II con 176 domande basate su casi di studio
  • Tre esami di livello III con 264 domande, includendo formati a risposta aperta

I modelli testati – Gemini 3.0 Pro, Gemini 2.5 Pro, GPT-5, Grok 4, Claude Opus 4.1 e DeepSeek-V3.1 – hanno superato tutti i livelli secondo i criteri stabiliti ufficialmente dal CFA Institute.

Performance record al livello I

Gemini 3.0 Pro ha raggiunto un punteggio eccezionale del 97,6% nel primo livello, quello che verifica le conoscenze fondamentali attraverso domande a scelta multipla indipendenti. GPT-5 ha ottenuto un rispettabile 96,1%, seguito da Gemini 2.5 Pro con il 95,7%. Persino il modello con le prestazioni più basse tra quelli testati, DeepSeek-V3.1, ha raggiunto un notevole 90,9%.

Risultati straordinari al livello II

GPT-5 ha primeggiato nel secondo livello, che valuta l’applicazione pratica e l’analisi attraverso casi di studio, ottenendo un punteggio del 94,3%. Gemini 3.0 Pro ha raggiunto il 93,2% mentre Gemini 2.5 Pro si è attestato al 92,6%. I ricercatori hanno sottolineato come i modelli abbiano conseguito “risultati praticamente perfetti” in questa fase.

Tuttavia le domande di etica si sono rivelate particolarmente ostiche. Anche i modelli con le migliori prestazioni hanno mostrato tassi di errore relativi tra il 17 e il 21% nelle questioni etiche del livello II.

La sfida del livello III e le risposte costruite

Il terzo livello rappresenta la fase più complessa, combinando domande a scelta multipla con risposte aperte che richiedono capacità di sintesi avanzate. Gemini 2.5 Pro ha ottenuto i migliori risultati nelle domande a scelta multipla con l’86,4%. Tuttavia Gemini 3.0 Pro ha dominato nelle risposte costruite raggiungendo un impressionante 92,0%, un salto significativo rispetto al 82,8% del suo predecessore.

Implicazioni per il settore dell’intelligenza artificiale applicata alla finanza

Secondo i ricercatori, questi risultati suggeriscono che i modelli di reasoning superano le competenze richieste agli analisti finanziari di livello iniziale e intermedio. Potrebbero potenzialmente raggiungere in futuro il livello di competenza di analisti senior. Mentre i modelli linguistici avevano già padroneggiato la “conoscenza codificata” dei primi due livelli, l’ultima generazione sta ora sviluppando le complesse capacità di sintesi necessarie per il terzo livello.

L’automazione nella valutazione delle risposte aperte

Un aspetto interessante della metodologia di ricerca riguarda l’utilizzo di un modello o4-mini per automatizzare la valutazione delle risposte aperte. Gli studiosi riconoscono che questo approccio introduce potenziali errori di misurazione e un possibile “verbosity bias”, ovvero una tendenza a premiare risposte più dettagliate indipendentemente dalla loro effettiva qualità. I risultati vanno quindi interpretati come approssimazioni basate su modelli piuttosto che come valutazioni assolute.

Limitazioni e considerazioni critiche sull’utilizzo dell’intelligenza artificiale in ambito finanziario

I benchmark rappresentati dagli esami, specialmente quelli in formato a scelta multipla, forniscono solamente un’indicazione parziale delle prestazioni e del potenziale impatto economico dell’intelligenza artificiale. Superare un test standardizzato non significa necessariamente che un modello possa gestire efficacemente il lavoro quotidiano di un analista finanziario reale.

Le sfide del mondo professionale

La professione di analista finanziario coinvolge numerosi aspetti che vanno ben oltre la conoscenza teorica:

  • Conduzione di riunioni con clienti e stakeholder
  • Valutazione del sentiment di mercato in tempo reale
  • Presa di decisioni strategiche con informazioni incomplete o ambigue
  • Gestione di situazioni complesse e in continuo cambiamento

Le domande di etica rimangono particolarmente problematiche per i modelli di intelligenza artificiale, poiché richiedono comprensione contestuale e capacità di giudizio che vanno oltre la semplice applicazione di regole predefinite. Gli esami testano conoscenze isolate, non la capacità di applicarle in situazioni reali complesse e mutevoli.

Il problema della contaminazione dei dati

I ricercatori non possono escludere completamente la possibilità di contaminazione dei dati di addestramento. Nonostante abbiano utilizzato materiali attuali e a pagamento, esiste la possibilità che alcune domande siano finite nei dataset di training attraverso contenuti parafrasati disponibili pubblicamente. Questo significa che i modelli potrebbero aver semplicemente memorizzato le risposte corrette invece di ragionarci sopra in modo genuino.

Il futuro dell’intelligenza artificiale nel settore finanziario

Il salto qualitativo da “fallimento completo” a “prestazioni quasi perfette” in appena due anni evidenzia l’incredibile velocità di progresso dell’intelligenza artificiale nei domini specializzati. Per il settore finanziario, la questione fondamentale sembra non essere più se l’AI possa padroneggiare il materiale teorico, quanto piuttosto come integrare efficacemente questa conoscenza nei flussi di lavoro operativi reali.

I criteri di superamento utilizzati nello studio riflettono gli standard ufficiali: il livello I richiede almeno il 60% per argomento e il 70% complessivo, il livello II necessita di almeno il 50% per argomento e il 60% complessivo, mentre il livello III richiede una media di almeno il 63% tra le sezioni a scelta multipla e a risposta costruita.

Prospettive di integrazione nei processi lavorativi

Le organizzazioni finanziarie si trovano ora di fronte alla sfida di determinare come questi strumenti basati su intelligenza artificiale possano affiancare o supportare gli analisti umani. L’integrazione efficace richiederà probabilmente un approccio ibrido che sfrutti i punti di forza complementari sia dell’intelligenza artificiale che dell’esperienza umana.

Le competenze dimostrate dai modelli di reasoning nell’analisi finanziaria potrebbero rivoluzionare diversi aspetti del lavoro quotidiano, dall’analisi preliminare dei dati alla generazione di report iniziali, liberando tempo prezioso per gli analisti umani che potranno concentrarsi su attività a più alto valore aggiunto come la strategia, le relazioni con i clienti e il giudizio critico in situazioni complesse.