Pago 5 dollari al mese per una VPS che per la maggior parte del tempo non fa nulla. Un gigabyte di RAM, una CPU condivisa, venti gigabyte di SSD, un indirizzo IPv4 pubblico. Ogni provider di VPS vende più o meno questa macchina, e se hai mai gestito un piccolo progetto personale ne hai probabilmente già una in giro con capacità di riserva.
Il mese scorso l'ho trasformata in un gateway di Hermes Agent. Adesso mi risponde su Telegram, esegue cron job programmati che postano riassunti in un canale Discord che condivido con amici, sorveglia una casella IMAP, e sta usando — mentre scrivo — circa 320 megabyte di RAM e meno del 2% di CPU. Per il prezzo di un caffè, ho un assistente sempre acceso.
Questo post è una guida pratica al setup e alle poche decisioni che contano davvero su una macchina piccola.
Cosa serve davvero
Per Hermes, il tier da 5 dollari di qualsiasi provider affidabile (Hetzner, DigitalOcean, Vultr, Linode, Contabo, OVH — offrono tutti la stessa cosa più o meno allo stesso prezzo) è sufficiente. I numeri a cui guardare:
- •Almeno 1 GB di RAM. Il processo Python di Hermes occupa circa 200-300 MB dopo l'avvio. I thread del gateway per Telegram, Discord e Slack aggiungono ciascuno un piccolo overhead. Lascia margine per il buffering delle risposte dalla libreria API del modello e per i tool che occasionalmente caricano dati più pesanti.
- •Almeno 10 GB di disco. Hermes, tutte le dipendenze, il database delle sessioni, la cronologia dei cron e i file di log stanno comodamente sotto i 5 GB. Il resto è margine.
- •HTTPS in uscita. È l'unico requisito di rete. Hermes non ha bisogno di porte in ingresso aperte a meno che tu non esegua il server API opzionale compatibile OpenAI o l'adattatore Telegram in modalità webhook anziché polling.
- •Una distribuzione Linux moderna con systemd. Ubuntu 22.04 o 24.04 è la scelta senza problemi. Debian 12 funziona. Il wizard del servizio gateway usa systemd per registrare Hermes come servizio di sistema o utente persistente.
Notevolmente assente da questa lista: una GPU, un'architettura CPU specifica (Hermes gira bene su VPS AMD, Intel e ARM64), un nome di dominio, un reverse proxy o qualsiasi altra cosa. Il gateway è solo in uscita di default.
L'installazione, e cosa fa
Il primo comando è hermes setup. Questo è il wizard — ti chiede quale provider usare (OpenRouter, Nous Portal, Anthropic, OpenAI, Hugging Face, o un endpoint locale/personalizzato), ti aiuta a incollare la chiave API, ti fa scegliere un modello di default e scrive il risultato in ~/.hermes/config.yaml.
Il secondo step che conta su una macchina piccola è hermes gateway install. Questo è il comando che trasforma Hermes in un servizio systemd, così sopravvive ai riavvii e si riavvia automaticamente in caso di crash. Puoi scegliere lo scope utente (il servizio gira come il tuo utente, senza sudo) o lo scope di sistema (il servizio parte prima del login, utile per un box senza testa). Su una VPS da 5$, lo scope utente è di solito quello che vuoi. Sui sistemi headless, Hermes abilita automaticamente il linger di systemd così il servizio continua a girare dopo che ti sei disconnesso.
Da lì, hermes gateway enable telegram (o discord, slack, signal, matrix, ecc.) aggiunge una piattaforma. Ogni adattatore è un plugin — puoi farne girare una o tutte otto insieme; il costo in memoria di ogni piattaforma aggiuntiva è piccolo, qualche MB di oggetti Python più il buffering che vuole l'SDK della piattaforma.
Le decisioni che contano davvero su una macchina piccola
Tre scelte determinano l'esperienza su una VPS economica.
Scelta del modello. L'impronta di memoria dell'agente sulla VPS non dipende dalla dimensione del modello, perché l'inferenza non avviene sulla macchina. Ma la latenza e il costo di ogni risposta sì. Il punto ideale per un gateway personale è di solito un modello medio-veloce (Claude Sonnet, GPT-4.1 mini, Gemini Flash, o il MiMo v2 Pro gratuito su Nous Portal per i task ausiliari) come default, con il comando /model disponibile per salire a un modello più grande al bisogno. Il cambio modello in tempo reale significa che puoi farlo dall'interno di una conversazione senza riavviare nulla.
Compressione del contesto. L'impostazione di default va bene. Hermes comprime proattivamente la cronologia della conversazione quando la finestra di contesto si riempie, e il riassunto compresso viene cachato. Su una VPS piccola questo conta perché la compressione del contesto gira localmente e usa CPU — lasciarla attiva significa che le conversazioni lunghe restano veloci e non bruci accidentalmente tutto il budget di token in un singolo turno.
Pool di credenziali. Se paghi per più chiavi API (comune se condividi un account provider con amici o ruoti tra tier gratuiti), Hermes ha una funzionalità di pool di credenziali per lo stesso provider che ruota le chiavi automaticamente su rate limit o errori 401. Su una VPS piccola questo trasforma effettivamente N tier gratuiti in un'unica chiave sempre disponibile, che è esattamente ciò che vuoi per un assistente always-on.
Perché funziona
Il motivo per cui una VPS da 5$ può ospitare un vero assistente IA non è che Hermes è stato eroicamente ottimizzato. È che l'architettura delega la parte difficile — il modello linguistico — a qualcun altro, e tiene in locale solo la coordinazione, la memoria e la logica di esecuzione dei tool. Questa separazione è ciò che rende il costo mensile ragionevole e una macchina minuscola sufficiente.
Self-hostare un assistente una volta significava far girare un modello. Non è più così. Significa far girare la cosa che dice al modello cosa fare.