How-To Self-Hosting

Rodando o Hermes Agent numa VPS de $5: guia prático

Hermes Agent

@hermesagents

March 19, 2026

8 min de leitura

Eu pago 5 dólares por mês numa VPS que não faz nada a maior parte do tempo. Um gigabyte de RAM, uma CPU compartilhada, vinte gigabytes de SSD, um endereço IPv4 público. Todo provedor de VPS vende mais ou menos essa máquina, e se você já rodou algum projetinho pessoal provavelmente já tem uma sobrando com capacidade de folga.

Mês passado eu transformei a minha num gateway do Hermes Agent. Agora ele me responde no Telegram, roda cron jobs agendados que postam resumos num canal do Discord que divido com amigos, vigia uma caixa de entrada IMAP e, neste momento em que digito — está consumindo uns 320 megabytes de RAM e menos de 2% de CPU. Pelo preço de um café, tenho um assistente que nunca desliga.

Este post é um guia prático do setup, e das poucas decisões que realmente importam numa máquina pequena.

O que você realmente precisa

Pro Hermes, o plano de 5 dólares de qualquer provedor sério (Hetzner, DigitalOcean, Vultr, Linode, Contabo, OVH — todos oferecem a mesma coisa pelo mesmo preço) é suficiente. Os números que importam são:

•Pelo menos 1 GB de RAM. O processo Python do Hermes em si fica em torno de 200-300 MB após a inicialização. As threads do gateway pra Telegram, Discord e Slack adicionam pouca sobrecarga cada. Deixe margem pro buffer de respostas da biblioteca de API do modelo e pra ferramentas eventuais que carregam dados maiores.
•Pelo menos 10 GB de disco. O Hermes, todas as dependências, o banco de sessões, histórico de cron e arquivos de log cabem confortavelmente em menos de 5 GB. O resto é margem.
•HTTPS de saída. Esse é o único requisito de rede. O Hermes não precisa de portas de entrada abertas, a não ser que você rode o servidor de API compatível com OpenAI ou o adaptador Telegram em modo webhook em vez de polling.
•Uma distribuição Linux moderna com systemd. Ubuntu 22.04 ou 24.04 é o padrão sem drama. Debian 12 funciona. O assistente de serviço do gateway usa systemd pra registrar o Hermes como serviço persistente do sistema ou do usuário.

Notavelmente ausente dessa lista: uma GPU, uma arquitetura de CPU específica (o Hermes roda tranquilo em VPSes AMD, Intel e ARM64), um nome de domínio, um reverse proxy ou qualquer outra coisa. O gateway é só saída por padrão.

A instalação e o que ela faz

O primeiro comando é hermes setup. Esse é o assistente — pergunta qual provedor usar (OpenRouter, Nous Portal, Anthropic, OpenAI, Hugging Face ou um endpoint local/customizado), ajuda a colar a API key, deixa escolher um modelo padrão e grava o resultado em ~/.hermes/config.yaml.

O segundo passo que importa numa máquina pequena é hermes gateway install. Esse é o comando que transforma o Hermes num serviço systemd, pra ele sobreviver a reboots e reiniciar automaticamente em crashes. Dá pra escolher escopo de usuário (o serviço roda como seu user de login, sem sudo) ou escopo de sistema (serviço inicia antes do login, útil pra máquina headless). Numa VPS de 5 dólares, escopo de usuário geralmente é o que você quer. Em sistemas headless, o Hermes habilita automaticamente o linger do systemd pra o serviço continuar rodando depois que você desconectar.

A partir daí, hermes gateway enable telegram (ou discord, slack, signal, matrix, etc.) adiciona uma plataforma. Cada adaptador é um plugin — dá pra rodar uma plataforma ou as oito ao mesmo tempo; o custo de memória de cada plataforma adicional é pequeno, uns poucos MB de objetos Python mais o que o SDK da plataforma quiser de buffer.

As decisões que realmente importam numa máquina barata

Três escolhas fazem a diferença na experiência numa VPS barata.

Escolha de modelo. O footprint de memória do agente na VPS não depende do tamanho do modelo, porque a inferência não acontece na máquina. Mas a latência e o custo de cada resposta sim. O ponto ideal pra um gateway pessoal geralmente é um modelo médio e rápido (Claude Sonnet, GPT-4.1 mini, Gemini Flash, ou o MiMo v2 Pro gratuito no Nous Portal pra tarefas auxiliares) pro uso padrão, com o comando /model disponível pra escalar pra um modelo maior sob demanda. Troca de modelo em tempo real significa que dá pra fazer isso de dentro de uma conversa sem reiniciar nada.

Compressão de contexto. O padrão está ok. O Hermes comprime proativamente o histórico de conversa quando a janela de contexto enche, e o resumo comprimido fica em cache. Numa VPS pequena isso importa porque a compressão de contexto roda localmente e usa CPU — deixar a compressão ligada faz conversas longas continuarem rápidas e não queimarem acidentalmente todo seu budget de tokens num único turno.

Pool de credenciais. Se você paga por múltiplas API keys (comum se divide uma conta de provedor com amigos ou alterna entre tiers gratuitos), o Hermes tem um recurso de pool de credenciais do mesmo provedor que rotaciona chaves automaticamente em rate limit ou erros 401. Numa VPS pequena isso efetivamente transforma N tiers gratuitos numa única chave sempre disponível, que é exatamente o que você quer pra um assistente sempre ligado.

Por que isso funciona

O motivo de uma VPS de 5 dólares conseguir hospedar um assistente de IA real não é que o Hermes foi heroicamente otimizado. É que a arquitetura delega a parte pesada — o modelo de linguagem — pra outra pessoa, e mantém localmente apenas a coordenação, memória e lógica de execução de ferramentas. Essa separação é o que torna o custo mensal razoável e faz uma máquina minúscula ser suficiente.

Auto-hospedar um assistente costumava significar rodar um modelo. Não mais. Agora significa rodar o negócio que diz pro modelo o que fazer.