Ok, mettiamola così: avete presente quando dovete fare quella cosa noiosa di controllare budget, cercare prezzi in un PDF, incrociare dati tra tre software diversi e poi mandare 47 email personalizzate? Ecco, Holo3 fa esattamente questo. E lo fa meglio di voi. Probabilmente.
78.85% su OSWorld: tradotto in umano
H Company ha appena rilasciato Holo3, e il numero che dovreste ricordarvi è 78.85% su OSWorld-Verified. Che significa? È il benchmark che misura quanto bene un’AI riesce a usare un computer come farebbe un umano – aprire programmi, cliccare pulsanti, compilare form, quella roba lì.
78.85% è il nuovo record. Punto.
Ma ecco la parte che mi ha fatto alzare le sopracciglia: lo fa con solo 10 miliardi di parametri attivi (122B totali). GPT-5.4 e Claude Opus 4.6? Molto più grossi, molto più costosi. Questo invece gira leggero e – sorpresa – la versione da 35B è open source su Hugging Face con licenza Apache 2.0. Zero vincoli commerciali, fate quello che volete.
Come funziona (senza le buzzword)
Chiamano il loro sistema di training “Agentic Learning Flywheel”. Nome figo, concept solido. Funziona tipo così:
- Navigazione sintetica: generano esempi di come completare task specifici, usando istruzioni umane e generate
- Augmentation fuori dominio: prendono quegli esempi e li complicano – tipo “ok ma e se il pulsante fosse in un posto diverso? E se il form avesse campi extra?”
- Reinforcement learning curato: ogni sample passa attraverso filtri avanzati e RL per spremere performance
Il risultato? Un modello che non solo sa fare il task X, ma sviluppa skill generaliste per interfacce che non ha mai visto.
La Synthetic Environment Factory (aka la palestra dove Holo3 si è allenato)
Qui diventa interessante. H Company ha costruito quella che chiamano “Synthetic Environment Factory” – praticamente coding agents che programmano siti web e software da zero basandosi su specifiche di scenario. Creano ambienti enterprise realistici, generano task verificabili di difficoltà variabile, validano tutto end-to-end con script.
Per misurare se funziona nel mondo reale (non solo nei benchmark accademici), hanno creato gli H Corporate Benchmarks: 486 task multi-step divisi in 4 categorie – E-commerce, Business software, Collaboration, setup Multi-App.
I task Multi-App sono quelli tosti. Tipo: prendi prezzi da un PDF, confrontali col budget rimanente di ogni dipendente, manda email personalizzate di approvazione o rifiuto a tutti. Non è solo “clicca qui e copia questo” – serve ragionamento multi-step coordinato tra applicazioni diverse, senza perdere stato o contesto.
Esempio concreto di cosa fa Holo3
Immaginate questo workflow:
- Apre un PDF con una lista di attrezzature e relativi prezzi
- Per ogni dipendente, controlla il budget rimanente in un software gestionale
- Calcola se può permettersi l’attrezzatura richiesta
- Manda email personalizzata – “Approvato” o “Negato, ti restano solo X euro”
- Ripete per 50 dipendenti
Questo è il tipo di task dove Holo3 brilla. Non è magia – è percezione accurata (sa dove cliccare), decision-making solido (capisce cosa fare dopo), e capacità di non perdere il filo attraverso applicazioni multiple.
Performance: numeri vs chiacchiere
Nei benchmark single-application, Holo3 batte modelli con molti più parametri. La differenza tra Holo3 e il modello base Qwen3.5 mostra esattamente cosa fa il loro “flywheel” di training – stesso modello foundation, performance drasticamente migliori dopo specializzazione agentica.
Su task multi-app (quelli difficili), il gap si allarga ancora di più. Perché? Perché coordinare informazioni tra sistemi diversi non è solo questione di potenza bruta – serve training specifico su scenari complessi. E quello è esattamente ciò per cui Holo3 è stato costruito.
Cosa significa “Autonomous Enterprise” (senza il marketing)
H Company continua a parlare di “Autonomous Enterprise”. Tradotto: vogliono agenti AI che girino dentro i vostri sistemi aziendali e facciano lavoro vero senza supervisione umana costante.
Holo3 è un pezzo di questo puzzle. Oggi sa navigare interfacce che conosce. Il prossimo step – che chiamano “Adaptive Agency” – è imparare a usare software completamente nuovo in tempo reale, senza training specifico.
Tipo: vi installate un gestionale custom fatto in casa, mai visto prima. Un umano ci metterebbe giorni a capirlo. L’idea è che l’agente AI lo impari al volo, osservando, provando, adattandosi.
Siamo lì? No. Ma Holo3 dimostra che la direzione è quella.
Disponibilità e accesso
Modelli disponibili via Inference API di H Company. La versione Holo3-35B-A3B è su Hugging Face, licenza Apache 2.0 (fate quello che vi pare), e accessibile gratis tramite il loro tier gratuito dell’API.
La versione grossa (122B con 10B attivi) costa, ma meno di GPT-5 o Opus 4.6. E considerando che fa 78.85% su OSWorld mentre quei modelli… boh, non hanno nemmeno pubblicato score ufficiali su quel benchmark, direi che il rapporto qualità/prezzo c’è.
Perché dovreste interessarvene
Perché computer use è la prossima frontiera. Chatbot testuali? Risolti. Generazione immagini? Check. Ma agenti che possono aprire Excel, cercare dati, compilare form, mandare email, controllare dashboard – questo cambia come funziona il lavoro d’ufficio.
Holo3 non è perfetto. I benchmark mostrano ~79% di successo, che significa 1 task su 5 fallisce. Ma è un salto enorme rispetto a 6 mesi fa, quando questi modelli faticavano a superare il 50%.
E se la traiettoria continua – Synthetic Environment Factory che sforna ambienti sempre più complessi, modelli che imparano da task sempre più difficili – tra un anno potremmo guardare Holo3 come guardiamo GPT-3: “ricordate quando era impressionante?”
Per ora, è il migliore che c’è. E costa meno della concorrenza. E parte di esso è open source.
Non male per un martedì di marzo 2026.
