How-To Self-Hosting

Hermes Agent na VPS-ie za 5 dolarów: praktyczny poradnik

Hermes Agent

@hermesagents

March 19, 2026

8 min czytania

Płacę 5 dolarów miesięcznie za VPS-a, który przez większość czasu nic nie robi. Jeden gigabajt RAM-u, współdzielony CPU, dwadzieścia gigabajtów SSD i publiczny adres IPv4. Każdy dostawca VPS sprzedaje mniej więcej taką maszynę, a jeśli kiedykolwiek uruchamiałeś mały osobisty projekt, prawdopodobnie już masz jedną z zapasem mocy.

W zeszłym miesiącu zamieniłem swoją w bramkę Hermes Agent. Teraz odpowiada mi na Telegramie, uruchamia zaplanowane cronjobowe podsumowania na kanale Discord, który dzielę ze znajomymi, pilnuje skrzynki IMAP, i w tej chwili — gdy to piszę — zajmuje jakieś 320 megabajtów RAM-u przy mniej niż 2% CPU. Za cenę kawy mam asystenta, który jest zawsze włączony.

Ten wpis to praktyczny poradnik po konfiguracji i po tych kilku decyzjach, które naprawdę mają znaczenie na małej maszynie.

Co naprawdę jest potrzebne

Do Hermesa wystarczy pakiet VPS za 5 dolarów u dowolnego porządnego dostawcy (Hetzner, DigitalOcean, Vultr, Linode, Contabo, OVH — wszyscy oferują mniej więcej to samo w tej samej cenie). Na co zwrócić uwagę:

•Minimum 1 GB RAM. Proces Pythona samego Hermesa po starcie zajmuje ok. 200–300 MB. Wątki bramki dla Telegrama, Discorda i Slacka dodają niewielki narzut. Zostaw zapas na buforowanie odpowiedzi przez bibliotekę API modelu językowego i na narzędzia, które od czasu do czasu ładują większe zbiory danych.
•Minimum 10 GB dysku. Hermes, wszystkie zależności, baza sesji, historia cronów i logi wygodnie mieszczą się w mniej niż 5 GB. Reszta to margines.
•Wychodzący HTTPS. To jedyne wymaganie sieciowe. Hermes nie potrzebuje otwartych portów przychodzących, chyba że uruchamiasz opcjonalny serwer API kompatybilny z OpenAI lub adapter Telegram w trybie webhooka zamiast pollingu.
•Nowoczesna dystrybucja Linuksa z systemd. Ubuntu 22.04 lub 24.04 to bezproblemowy standard. Debian 12 też działa. Kreator instalacji bramki używa systemd do zarejestrowania Hermesa jako trwałej usługi systemowej lub użytkownika.

Co rzuca się w oczy na tej liście: żadnego GPU, żadnej konkretnej architektury CPU (Hermes świetnie chodzi na VPS-ach AMD, Intel i ARM64), żadnej domeny, żadnego reverse proxy, nic. Bramka domyślnie działa tylko na ruchu wychodzącym.

Instalacja i co robi

Pierwsze polecenie to hermes setup. To kreator — pyta, którego dostawcę chcesz (OpenRouter, Nous Portal, Anthropic, OpenAI, Hugging Face lub lokalny/custom endpoint), pomaga wkleić klucz API, pozwala wybrać domyślny model i zapisuje wynik do ~/.hermes/config.yaml.

Drugi krok, który ma znaczenie na małej maszynie, to hermes gateway install. To polecenie zamienia Hermesa w usługę systemd, dzięki czemu przeżywa restarty i automatycznie wstaje po crashach. Możesz wybrać user scope (usługa działa pod Twoim użytkownikiem, bez sudo) lub system scope (usługa startuje przed logowaniem, przydatne na headless). Na VPS-ie za 5 dolarów zazwyczaj lepszy jest user scope. Na systemach headless Hermes automatycznie włącza systemd linger, żeby usługa działała po rozłączeniu.

Dalej hermes gateway enable telegram (lub discord, slack, signal, matrix itp.) dodaje platformę. Każdy adapter to plugin — możesz uruchomić jedną platformę albo wszystkie osiem naraz; dodatkowe zużycie pamięci na platformę jest niewielkie, kilka MB obiektów Pythona plus trochę buforowania przez SDK platformy.

Decyzje, które naprawdę mają znaczenie na małej maszynie

Trzy wybory decydują o tym, czy korzystanie z taniej VPS będzie przyjemne.

Wybór modelu. Zużycie pamięci agenta na VPS-ie nie zależy od rozmiaru modelu, bo inferencja nie odbywa się na tej maszynie. Ale latencja i koszt odpowiedzi już tak. Sweet spot dla osobistej bramki to zazwyczaj średniej wielkości, szybki model (Claude Sonnet, GPT-4.1 mini, Gemini Flash albo darmowy MiMo v2 Pro na Nous Portal do pobocznych zadań) jako domyślny, z komendą /model na wyciągnięcie ręki, żeby przeskoczyć do cięższego modelu na żądanie. Zmiana modelu w locie oznacza, że można to zrobić w środku rozmowy bez restartu.

Kompresja kontekstu. Domyślne ustawienia wystarczają. Hermes proaktywnie kompresuje historię rozmowy, gdy okno kontekstowe się zapełnia, a skompresowane podsumowanie jest cache'owane. Na małej VPS to ważne, bo kompresja kontekstu działa lokalnie i kosztuje CPU — zostawienie tego włączonego sprawia, że długie rozmowy pozostają szybkie i nie spalasz przypadkiem całego budżetu tokenów w jednej turze.

Pooling poświadczeń. Jeśli płacisz za wiele kluczy API (typowe, gdy dzielisz konto dostawcy ze znajomymi lub przeskakujesz między darmowymi tierami), Hermes ma funkcję puli poświadczeń, która automatycznie rotuje klucze przy rate limitach lub błędach 401. Na małej VPS to w praktyce zamienia N darmowych tierów w jeden zawsze dostępny klucz — dokładnie to, czego chcesz przy asystencie, który jest zawsze włączony.

Dlaczego to w ogóle działa

VPS za 5 dolarów może hostować prawdziwego asystenta AI nie dlatego, że Hermes jest heroicznie zoptymalizowany. To dlatego, że architektura deleguje ciężką robotę — model językowy — komuś innemu i lokalnie uruchamia jedynie koordynację, pamięć i logikę wykonywania narzędzi. To rozdzielenie sprawia, że miesięczne koszty pozostają rozsądne, a mała maszyna w zupełności wystarczy.

Samodzielne hostowanie asystenta kiedyś oznaczało: uruchomić model. Już tak nie jest. Teraz oznacza: uruchomić to, co mówi modelowi, co ma robić.