Ich zahle 5 Dollar im Monat für einen VPS, der die meiste Zeit nichts tut. Ein Gigabyte RAM, eine geteilte CPU, zwanzig Gigabyte SSD, eine öffentliche IPv4-Adresse. Jeder VPS-Anbieter verkauft ungefähr diese Maschine, und wenn du jemals ein kleines persönliches Projekt gehostet hast, hast du wahrscheinlich schon einen mit Restkapazität herumstehen.
Letzten Monat habe ich meinen in ein Hermes-Agent-Gateway umgewandelt. Er antwortet mir jetzt auf Telegram, führt geplante Cron-Jobs aus, die Zusammenfassungen in einen Discord-Channel posten, den ich mit Freunden teile, überwacht ein IMAP-Postfach und verbraucht gerade — während ich das hier tippe — etwa 320 Megabyte RAM und unter 2 % CPU. Für den Preis eines Kaffees habe ich einen Assistenten, der immer läuft.
Dieser Beitrag ist eine Praxisanleitung für die Einrichtung und für die Handvoll Entscheidungen, die auf einer kleinen Maschine wirklich zählen.
Was du tatsächlich brauchst
Für Hermes reicht ein 5-Dollar-VPS bei jedem seriösen Anbieter (Hetzner, DigitalOcean, Vultr, Linode, Contabo, OVH — alle bieten ungefähr das Gleiche zum ungefähr gleichen Preis). Die Zahlen, auf die du achten solltest:
- •Mindestens 1 GB RAM. Der Hermes-Python-Prozess selbst liegt nach dem Start bei etwa 200–300 MB. Die Telegram-, Discord- und Slack-Gateway-Threads kommen mit etwas Overhead dazu. Lass Luft für die Sprachmodell-API-Library, die Antworten puffert, und für gelegentliche Tools, die größere Daten laden.
- •Mindestens 10 GB Speicher. Hermes, alle Dependencies, die Session-Datenbank, Cron-Verlauf und Log-Dateien passen bequem in unter 5 GB. Der Rest ist Puffer.
- •Ausgehend HTTPS. Das ist die einzige Netzwerkanforderung. Hermes braucht keine eingehenden Ports, es sei denn, du betreibst den optionalen OpenAI-kompatiblen API-Server oder den Telegram-Adapter im Webhook-Modus statt Polling.
- •Eine moderne Linux-Distribution mit systemd. Ubuntu 22.04 oder 24.04 ist die problemlose Standardwahl. Debian 12 geht auch. Der Gateway-Service-Wizard nutzt systemd, um Hermes als persistenten System- oder User-Service zu registrieren.
Was auffällig auf dieser Liste fehlt: eine GPU, eine bestimmte CPU-Architektur (Hermes läuft problemlos auf AMD-, Intel- und ARM64-VPS), ein Domainname, ein Reverse-Proxy oder sonst irgendetwas. Das Gateway arbeitet standardmäßig nur mit ausgehenden Verbindungen.
Die Installation und was sie tut
Der erste Befehl ist hermes setup. Das ist der Wizard — er fragt, welchen Provider du nutzen willst (OpenRouter, Nous Portal, Anthropic, OpenAI, Hugging Face oder einen lokalen/Custom-Endpoint), hilft beim Einfügen deines API-Keys, lässt dich ein Standardmodell auswählen und schreibt das Ergebnis nach ~/.hermes/config.yaml.
Der zweite Schritt, der auf einer kleinen Maschine zählt, ist hermes gateway install. Das ist der Befehl, der Hermes in einen systemd-Service verwandelt, damit es Neustarts überlebt und bei Abstürzen automatisch neu startet. Du kannst zwischen User-Scope (Service läuft als dein Login-User, kein sudo nötig) und System-Scope (Service startet vor dem Login, nützlich für eine Headless-Box) wählen. Auf einem 5-Dollar-VPS willst du meist User-Scope. Auf headless-Systemen aktiviert Hermes automatisch systemd-Linger, damit der Service nach dem Disconnect weiterläuft.
Von dort fügt hermes gateway enable telegram (oder discord, slack, signal, matrix usw.) eine Plattform hinzu. Jeder Adapter ist ein Plugin — du kannst eine Plattform oder alle acht gleichzeitig betreiben; der Speicher-Overhead für jede zusätzliche Plattform ist gering, ein paar MB Python-Objekte plus was auch immer das SDK der Plattform puffern will.
Die Entscheidungen, die auf einer kleinen Box wirklich zählen
Drei Entscheidungen machen den Unterschied auf einem günstigen VPS.
Modellwahl. Der Memory-Footprint des Agenten auf dem VPS hängt nicht von der Modellgröße ab, weil die Inferenz nicht auf der Box passiert. Aber Latenz und Kosten jeder Antwort schon. Der Sweet Spot für ein persönliches Gateway ist meist ein mittelgroßes, schnelles Modell (Claude Sonnet, GPT-4.1 mini, Gemini Flash oder das kostenlose MiMo v2 Pro auf Nous Portal für Nebenaufgaben) als Standard, mit dem /model-Befehl, um bei Bedarf auf ein größeres Modell zu eskalieren. Live-Modellwechsel bedeutet, dass du das mitten im Gespräch tun kannst, ohne irgendetwas neu zu starten.
Kontextkompression. Die Standardeinstellung ist in Ordnung. Hermes komprimiert den Gesprächsverlauf proaktiv, wenn das Kontextfenster voll wird, und die komprimierte Zusammenfassung wird gecacht. Auf einem kleinen VPS ist das wichtig, weil die Kontextkompression lokal läuft und CPU verbraucht — Kompression anlassen bedeutet, dass lange Gespräche schnell bleiben und nicht versehentlich dein gesamtes Token-Budget in einem einzigen Turn auffressen.
Credential-Pooling. Wenn du für mehrere API-Keys zahlst (häufig, wenn du einen Provider-Account mit Freunden teilst oder zwischen Free Tiers rotierst), hat Hermes ein Same-Provider-Credential-Pool-Feature, das Keys automatisch bei Rate-Limit- oder 401-Fehlern rotiert. Auf einem kleinen VPS macht das aus N Free Tiers effektiv einen einzigen immer verfügbaren Key, und genau das willst du für einen Always-on-Assistenten.
Warum das überhaupt funktioniert
Der Grund, warum ein 5-Dollar-VPS einen echten KI-Assistenten hosten kann, ist nicht, dass Hermes heroisch optimiert wurde. Es liegt daran, dass die Architektur den schweren Teil — das Sprachmodell — an jemand anderen delegiert und nur die Koordination, das Gedächtnis und die Tool-Ausführung lokal behält. Diese Trennung macht die monatlichen Kosten vernünftig und eine winzige Maschine ausreichend.
Einen Assistenten selbst zu hosten hieß früher, ein Modell zu betreiben. Nicht mehr. Jetzt heißt es, das Ding zu betreiben, das dem Modell sagt, was es tun soll.