METR ha interrogato 349 lavoratori tecnici — ingegneri, ricercatori, accademici, founder — tra febbraio e aprile 2026. La domanda: quanto ti sta aiutando davvero l’AI nel tuo lavoro quotidiano?
La risposta mediana? Tra 1,4x e 2x di ‘valore’ prodotto. Che tradotto significa: fanno il doppio di cose che contano davvero. O almeno, questo è quello che pensano.
Valore contro velocità: la differenza che cambia tutto
Ecco il punto centrale di questo studio. METR ha distinto tra due metriche che di solito vengono confuse: la velocità (‘quanto tempo ci avresti messo senza AI?’) e il valore (‘quanto più valore stai creando con l’AI?’).
Perché la distinzione conta? Semplice. Potresti usare l’AI per sfornare una dashboard interattiva in tre ore invece che in due giorni. Velocità impressionante, vero? Ma se quella dashboard non era davvero prioritaria, il valore aggiunto è modesto. Hai solo sostituito il tuo tempo verso compiti che l’AI fa bene ma che prima — giustamente — non facevi.
I numeri lo confermano: quando METR chiede di stimare la velocità, la mediana schizza a 3x. Quando chiede il valore, scende a 1,4-2x.
I numeri nel tempo
I partecipanti stimano retrospettivamente un moltiplicatore di valore di circa 1,3x per marzo 2025. Per marzo 2026 — cioè oggi, nel loro presente — dichiarano 2x. E prevedono 2,5x per marzo 2027.
Crescita costante, insomma. O almeno, crescita percepita.
Chi ci crede di più (e chi di meno)
Gli schemi sono prevedibili. Chi usa AI di più, chi ha più esperienza con tool agentic, chi lavora in startup: tutti riportano guadagni più alti.
Ma c’è un’eccezione curiosa: i dipendenti METR danno le stime più basse di qualsiasi sottogruppo. Perché? METR ipotizza che il loro staff, consapevole di studi precedenti che mostrano come le persone sovrastimino i guadagni di produttività AI del 40%, stia ‘correggendo al ribasso’ le proprie percezioni.
Oppure, semplicemente, il loro lavoro non si presta altrettanto bene all’automazione. Difficile dirlo con certezza.
Il problema delle percezioni
Ed è qui che lo studio diventa davvero interessante — per quello che ammette. METR è trasparente: ‘I risultati dei sondaggi non sono necessariamente radicati nella realtà.’
Hanno già visto questo film. Nel loro studio del 2025, le persone sovrastimavano l’effetto dell’AI sul tempo speso nei task di 40 punti percentuali in media. Quaranta. Non è un errore di arrotondamento.
Hanno fatto anche un controllo qualitativo su 7 risposte con stime di valore superiori a 10x. Risultato? In 2 casi su 7, guardando gli output pubblici, sono ‘confidenti che i partecipanti stanno sovrastimando’ — il lavoro enormemente più prezioso semplicemente non è visibile esternamente. In altri 2 casi, sono ‘sospettosi’ perché le affermazioni qualitative non corrispondono alle capacità degli agenti AI che loro conoscono.
Coerenza interna, ma quanto vale?
METR ha fatto i compiti a casa: ha posto la stessa domanda in tre modi diversi, ha cercato contraddizioni logiche, ha filtrato il 3% delle risposte con anomalie evidenti (tipo gente che dichiara di lavorare il 300% del tempo disponibile).
Le risposte sono internamente coerenti — le correlazioni tra diverse misure di valore sono moderate, nessun caos evidente. Ma la coerenza interna non equivale a verità esterna. Puoi essere perfettamente coerente nelle tue percezioni e comunque sbagliarti sistematicamente.
Sondaggi contro esperimenti sul campo
METR è onesta: i sondaggi tendono storicamente a sovrastimare i guadagni di produttività rispetto agli esperimenti randomizzati controllati o ai dati osservazionali reali. Il problema è che gli RCT sono costosi — molto costosi — e diventano sempre più costosi man mano che l’AI avanza (perché lo sforzo extra per completare task senza AI aumenta nel tempo).
I sondaggi invece sono economici, veloci, facili da far girare dentro le grandi aziende AI. E catturano informazioni qualitative che altrimenti sarebbero intoccabili.
Non sono la verità. Sono un pezzo del puzzle, con i loro punti ciechi specifici. Come i benchmark (che soffrono di validità esterna dubbia), come gli RCT (costosissimi e con task selection problematica), come i dati deployment su larga scala (pieni di effetti di selezione).
Raccomandazioni per chi vuole davvero capire
METR lancia un appello alle grandi aziende AI: fate sondaggi migliori. In particolare:
Chiedete ai manager o ai ricercatori di produttività, non solo agli individual contributor. I manager sono più vicini alle decisioni di spesa sugli strumenti AI. Hanno una visione più ampia. Potrebbero dare risposte più ancorate alla realtà.
Definite con cura la metrica centrale. Valore, non velocità. Le domande di METR portano materialmente più vicini a quello che conta davvero.
Accorciate il sondaggio. Molti partecipanti hanno segnalato survey fatigue. Comprensibile: questo sondaggio era lungo.
C’è anche un’idea più radicale che METR propone: rifare le domande sul ‘willingness-to-accept’ — quanto saresti disposto a sacrificare per mantenere l’accesso all’AI — ma questa volta togliendo davvero l’accesso all’AI per un mese con una certa probabilità. Soldi veri, perdite vere. Vedremmo numeri diversi? Probabile.
I numeri del willingness-to-accept
A proposito: il partecipante mediano dice che sacrificherebbe il 29% del proprio stipendio per mantenere l’accesso agli strumenti AI per un mese. Sembra tanto, vero? Ma METR stessa considera questa evidenza ‘debole’ — perché i lavoratori dipendenti non sono quelli che catturano il valore (lo fanno i datori di lavoro), e perché c’è troppa varianza nei dati (inclusa gente disposta a pagare oltre il 100% del proprio stipendio, il che puzza di risposte non calibrate).
Cosa c’è sotto il cofano
I partecipanti: 349 persone, di cui 87 ingegneri software, 71 ricercatori, 129 accademici e dottorandi, 48 founder e manager. Reclutati da GitHub, directory accademiche, reti professionali dello staff METR, X. Tasso di risposta? Circa 2% per email a freddo. Selection bias probabile.
Circa il 70% è stato pagato per partecipare (compenso orario o fisso); media di 200 dollari a persona.
Esperienza media: 12 anni di programmazione, 19 mesi usando AI per programmare, 7 mesi usando strumenti AI agentici. Il 48% è USA-based. Il 50% usa regolarmente Claude Code.
Il verdetto (provvisorio)
1,4-2x di valore prodotto è plausibile come stima delle credenze dei partecipanti. È plausibile come stima della realtà? Meno sicuro.
METR stessa è scettica — o almeno, prudente. Le evidenze qualitative suggeriscono che le stime più alte siano probabilmente gonfiate. La letteratura precedente mostra gap sistematici tra percezioni e misure oggettive. E la distinzione valore-velocità ci dice che c’è sostituzione in corso: la gente fa più cose che l’AI fa bene, non necessariamente più cose che contano.
Ma anche se i numeri sono sovrastimati, la direzione è chiara. L’AI sta cambiando come lavora la gente tecnica. Quanto? Difficile dirlo senza esperimenti più costosi e controllati. Ma questi 349 lavoratori — per quanto le loro percezioni siano imperfette — ci stanno raccontando qualcosa. Ascoltare con scetticismo calibrato è già un inizio.
