我每個月花 5 美金養一台 VPS,大部分時間它什麼也沒幹。1 GB 記憶體、一顆共用 CPU、20 GB SSD,外加一個公網 IPv4。每家 VPS 供應商賣的都是差不多這規格的機器——如果你跑過任何一個小型個人專案,很可能手邊已經有一台還有餘量的在待命。
上個月我把自己那台改成了 Hermes Agent 閘道。它現在會在 Telegram 裡回我、依照 cron 定時往我和朋友共用的 Discord 頻道裡貼摘要、盯著一個 IMAP 信箱——此刻正在吃的記憶體大約是 320 MB,CPU 不到 2%。一杯咖啡的錢,我就有了一個常開的助理。
這篇文章是這套設定的實作指南,順便捎上在小機器上真正要緊的那幾個決定。
你到底需要什麼
要跑 Hermes,任何一家靠譜供應商(Hetzner、DigitalOcean、Vultr、Linode、Contabo、OVH——價格都差不多的那種)的 5 美金檔 VPS 就夠了。要看的數字是:
- •至少 1 GB 記憶體。 Hermes 的 Python 行程啟動後本身就占 200-300 MB。Telegram、Discord、Slack 這些閘道執行緒每個會再加一點。再給語言模型 API 函式庫暫存回應留點餘量,偶爾有工具載入較大資料時也要有空間。
- •至少 10 GB 硬碟。 Hermes、所有相依套件、會話資料庫、cron 歷史和日誌檔案加起來舒舒服服裝在 5 GB 以下,剩下的是餘量。
- •能向外走 HTTPS。 這是唯一的網路需求。Hermes 預設不需要對外開放入站連接埠,除非你要跑選配的 OpenAI 相容 API 伺服器,或者把 Telegram 適配器從輪詢模式換成 webhook 模式。
- •帶 systemd 的現代 Linux 發行版。 Ubuntu 22.04 或 24.04 是最省心的預設選擇。Debian 12 也行。閘道服務精靈會用 systemd 把 Hermes 註冊成一個常駐的系統或使用者服務。
這份清單裡明顯缺席的東西:GPU、某種特定的 CPU 架構(AMD、Intel、ARM64 的 VPS 上 Hermes 都跑得好)、網域名稱、反向代理,或任何其他東西。閘道預設只走出站連線。
安裝流程,以及它做了什麼
第一條指令是 hermes setup。這是一個精靈——它會問你要用哪家服務商(OpenRouter、Nous Portal、Anthropic、OpenAI、Hugging Face,或本地/自訂端點),帶你把 API key 貼進去,讓你選一個預設模型,再把結果寫進 ~/.hermes/config.yaml。
小機器上第二條重要的指令是 hermes gateway install。這條指令會把 Hermes 變成一個 systemd 服務,重啟能自己起、當掉了也會自動拉回來。你可以選 user 範圍(服務以你這個登入使用者的身分跑,不需要 sudo)或 system 範圍(服務在登入之前就啟動,適合無頭機器)。5 美金 VPS 上,你通常想要的是 user 範圍。對無頭系統,Hermes 會自動啟用 systemd linger,所以你斷開連線之後服務也會繼續跑下去。
接下來,hermes gateway enable telegram(或是 discord、slack、signal、matrix 之類)就能加上一個平台。每個適配器都是外掛——你可以只跑一個平台,也可以八個一起跑。每多掛一個平台的記憶體開銷很小:幾 MB 的 Python 物件,再加上那個平台 SDK 自己想做的緩衝。
在小機器上真正要緊的那幾個決定
便宜 VPS 上有三個選擇直接決定體驗的好壞。
模型選擇。 Agent 在 VPS 上吃多少記憶體和模型大小無關,因為推論根本不在這台機器上跑。但每次回應的延遲和成本都跟模型有關。個人閘道的甜蜜點通常是一個中等大小的快速模型(Claude Sonnet、GPT-4.1 mini、Gemini Flash,或 Nous Portal 上免費的 MiMo v2 Pro 用來跑輔助任務)當預設,需要的時候用 /model 指令升級到更大的模型。會話中途換模型意味著你可以在對話裡直接切,不用重啟任何東西。
上下文壓縮。 預設值就很好。Hermes 會在上下文視窗快滿的時候主動壓縮對話歷史,壓完的摘要會被快取起來。這件事在小 VPS 上是有意義的,因為上下文壓縮是在本地跑、吃 CPU 的——把壓縮開著意味著長對話依然跑得快,也不會一不小心把一次對話的整個 token 預算都燒光。
憑證池。 如果你手上有好幾把 API key(和朋友共用供應商帳號、或在多個免費檔之間輪換的人常常這樣),Hermes 有一個同供應商憑證池的功能,會在限流或 401 錯誤時自動換下一把。在小 VPS 上,這等於把 N 個免費檔合成一把永遠可用的 key,這正是一個常開助理想要的效果。
這件事為什麼行得通
一台 5 美金的 VPS 能撐起一個真正的 AI 助理,原因不是 Hermes 被英勇地最佳化過。原因是這套架構把最重的那塊——語言模型——外包給了別人,只把協調、記憶和工具執行這幾塊留在本地。就是這一刀切分讓每月費用變得合理,也讓一台很小的機器就已經夠用。
以前自架一個助理的意思是你得自己跑一個模型。現在不是了。現在的意思是跑那個負責告訴模型該幹什麼的東西。