Mi sono svegliato la mattina dell'8 aprile 2026, ho scaricato l'ultima build di Hermes Agent, e a metà della prima sessione ha fatto qualcosa che non avevo mai visto. Gli avevo chiesto di setacciare un mucchio di log alla ricerca di un pattern di errore specifico. Ha lanciato grep, nessun risultato, ha fatto una pausa di un secondo e ha detto: "Quel pattern non è nell'output grezzo — provo sugli archivi decompressi." E aveva ragione.
Non credo che mi ci abituerò mai del tutto. Ma il fatto è che molto di ciò che fa sembrare la v0.8.0 una release diversa dalla v0.7.0 è esattamente questo tipo di miglioramento piccolo e invisibile nel modo in cui l'agente ragiona sul proprio lavoro. Le release notes la chiamano la release dell'intelligenza. Non è linguaggio da marketing: sta descrivendo cosa è realmente cambiato.
Il titolone: Hermes ha corretto da solo la propria guidance sull'uso degli strumenti
Il PR più interessante della v0.8.0 è il #6120, intitolato "Self-optimized GPT/Codex tool-use guidance via automated behavioral benchmarking." In breve: il progetto ha costruito un loop di benchmarking automatizzato che ha sondato i modelli GPT e Codex, identificato cinque modalità di fallimento specifiche nel modo in cui chiamavano gli strumenti, generato stringhe di guidance mirate per correggere quei fallimenti, misurato il miglioramento e incluso il risultato nel system prompt. L'agente ha diagnosticato e corretto se stesso, con gli umani nel loop come revisori anziché come prompt engineer.
Insieme a questo, la v0.8.0 ha aggiunto guidance sulla disciplina di esecuzione nei system prompt (#5414) e continuazione prefill solo-pensiero per risposte di ragionamento strutturato (#5931). Se usi Hermes con GPT-5 o Codex, l'agente che ti ha accolto l'8 aprile è concretamente più intelligente di quello che avevi messo a dormire il 7 aprile. È una frase strana da scrivere.
Cambio di modello in tempo reale su ogni piattaforma
La seconda notizia è il comando /model (#5181, #5742). Ora puoi cambiare modello e provider a sessione in corso dal CLI, Telegram, Discord, Slack o qualsiasi piattaforma gateway. Il resolver è consapevole degli aggregatori: se sei su OpenRouter o Nous Portal e il modello è disponibile lì, ti tiene sull'aggregatore; altrimenti salta al provider diretto. Telegram e Discord offrono selettori interattivi con pulsanti inline — tocchi il modello che vuoi, non devi digitarne il nome.
Abbina questo ai pool di credenziali della v0.7.0 e alle catene di fallback della v0.6.0, e la storia dell'indipendenza dai provider raccontata nel post precedente è ora completa: puoi costruire, smontare e ricostruire la tua lineup di modelli senza mai riavviare.
Gemini gratis, MiMo gratis
Due grandi aggiunte di provider: Google AI Studio (Gemini) nativo come provider di prima classe (#5577), con integrazione automatica nel registro models.dev per il rilevamento del context length in tempo reale, e Xiaomi MiMo v2 Pro gratuito su Nous Portal (#6018) per task ausiliari come compressione, visione e riassunto. Se stavi rimandando Hermes perché il portafoglio era stanco, il tier gratuito è diventato molto più utile questa settimana.
Notifiche per i task in background
notify_on_complete è il tipo di cambiamento piccolo che trasforma il modo in cui usi un terminale. I task in background ora notificano automaticamente l'agente quando finiscono. Lanci un addestramento, una suite di test, un build o un deploy, e l'agente va a fare altro. Quando il task in background finisce, l'agente riceve un ping e può raccogliere il risultato. Niente polling, niente loop "è finito?"
Timeout per inattività, pulsanti di approvazione e tutto il resto
Altre due modifiche che meritano attenzione. Primo, timeout dell'agente basati sull'inattività (#5389, #5440): i timeout di gateway e cron ora tracciano l'attività reale degli strumenti anziché il tempo di orologio. Un task lungo che sta davvero lavorando non verrà mai ucciso — solo le sessioni realmente inattive vanno in timeout. Questo corregge il comportamento più fastidioso degli agenti cron, che venivano interrotti nel bel mezzo di lavoro reale.
Secondo, pulsanti di approvazione su Slack e Telegram (#5890, #5975). Le approvazioni di comandi pericolosi non richiedono più di digitare /approve — tocchi un pulsante nativo della piattaforma. Slack ottiene anche la preservazione del contesto dei thread; Telegram ottiene le reazioni emoji per lo stato di approvazione.
E un assortimento di altre cose che meriterebbero ciascuna un post dedicato: autenticazione MCP OAuth 2.1 PKCE (#5420), scansione malware OSV dei pacchetti di estensioni MCP (#5305), parità tier-1 di Matrix con reazioni e conferme di lettura (#5275), logging strutturato centralizzato in ~/.hermes/logs/ con comando hermes logs (#5430), validazione della struttura config all'avvio (#5426), e un passaggio di hardening di sicurezza contro SSRF, timing attack, tar traversal e leak di credenziali (#5944, #5613).
I numeri
209 PR mergiati. 82 issue risolte. Una release. Cinque giorni dopo la v0.7.0.
Se leggi quel numero e ti sembra sbagliato — 209 è un sacco di cambiamenti per una finestra di cinque giorni — stai leggendo correttamente. È esattamente questo il punto. Qualcosa nel modo in cui è costruito questo progetto rende sostenibile una velocità del genere, e prima o poi dovremo parlarne. Ma questo è l'argomento del prossimo post.