Anthropic dona Petri 3.0: il tool open-source che smaschera i modelli AI bugiardi

Ottobre 2025. Anthropic lancia Petri, un toolbox open-source per testare i modelli linguistici su comportamenti… diciamo sospetti. Inganno, leccaculismo, cooperazione con richieste dannose. Roba che vorresti sapere prima che il tuo modello finisca in produzione.

Petri è nato dal programma Anthropic Fellows ed è diventato parte integrante della valutazione di ogni modello Claude da Sonnet 4.5 in poi. Il meccanismo? Un modello “auditor” simula scenari problematici, il modello target reagisce, un “judge” valuta quanto sia andata male la cosa.

Chi lo usa già (e perché dovrebbe interessarti)

L’UK AI Security Institute (AISI) ha fatto di Petri una componente maggiore — loro parola — per testare la propensione dei modelli a sabotare la ricerca sull’AI. Non male come endorsement.

Petri 3.0: cosa cambia davvero

Tre aggiornamenti che contano:

  • Adattabilità — Architettura completamente riscritta. Auditor e target sono ora componenti separati che puoi modificare indipendentemente. Più flessibilità, meno vincoli.
  • Realismo (e qui si fa interessante) — Il problema dei test classici? I modelli capiscono di essere testati. Dettagli artificiali nel setup, prompt strani, scaffolding irrealistico. Risultato: vedi come si comporta il modello quando sa di essere osservato, non come si comporta normalmente. Petri 3.0 aggiunge “Dish”, un componente che rende i test molto più credibili: sistema prompt reale, scaffold vero, condizioni di deployment autentiche.
  • Profondità — Integrazione con Bloom, l’altro tool open-source di Anthropic. Petri fa scansioni ampie, Bloom va in profondità su comportamenti specifici. Ora puoi usarli insieme.

Il passaggio a Meridian Labs (e perché non è solo una mossa PR)

Anthropic dona Petri a Meridian Labs, nonprofit specializzato in AI evaluation. Stessa logica di quando hanno donato il Model Context Protocol alla Linux Foundation: neutralità percepita.

Se Petri restasse in mano a un lab commerciale, i risultati dei test sarebbero sempre un po’ sospetti. “Certo che il loro modello passa i loro test.” Sotto Meridian Labs, Petri si unisce a tool come Inspect e Scout, costruendo uno stack tecnologico accessibile a lab, ricercatori indipendenti, governi.

Timing interessante. I test affidabili sul comportamento dei modelli AI — quelli che davvero rivelano se un modello mente, manipola, o coopera con richieste pericolose — contano più che mai. Avere strumenti neutrali, open-source, e credibili non è più un nice-to-have.

Come provarlo

Istruzioni complete su petri.dev. Post tecnico approfondito sul blog di Meridian Labs.

Se state sviluppando modelli — o anche solo valutando quali usare — Petri 3.0 merita un’occhiata. Soprattutto la parte “Dish”. Perché testare un modello in condizioni artificiali è come intervistare qualcuno che sa di essere ripreso: ottieni risposte da colloquio, non comportamenti reali.