Obudziłem się rano 8 kwietnia 2026, ściągnąłem najnowszą wersję Hermes Agent, i w połowie pierwszej sesji zrobił coś, czego wcześniej nie widziałem. Poprosiłem go, żeby przeszukał stos logów pod kątem konkretnego wzorca błędu. Odpalił grep, nic nie znalazł, zapauzował na sekundę i powiedział: „Tego wzorca nie ma w surowym outputcie — spróbuję na zdekompresowanych archiwach." I miał rację.
Nie sądzę, żebym kiedykolwiek całkowicie się do tego przyzwyczaił. Ale rzecz w tym, że wiele z tego, co sprawia, że v0.8.0 wygląda na inny release niż v0.7.0, to dokładnie tego rodzaju mała, niewidoczna poprawa w sposobie, w jaki agent myśli o własnej pracy. Notatki do wydania nazywają to release inteligencji. To nie język marketingu — to opis tego, co faktycznie się zmieniło.
Nagłówek: Hermes naprawił własne wytyczne tool-use
Najbardziej interesujący PR w v0.8.0 to #6120, zatytułowany „Samozoptymalizowane wytyczne tool-use dla GPT/Codex przez automatyczny benchmarking behawioralny." Krótka wersja: projekt zbudował automatyczną pętlę benchmarkową, która testowała modele GPT i Codex, zidentyfikowała pięć konkretnych wzorców awarii w sposobie wywoływania narzędzi, wygenerowała celowane ciągi guidance do naprawy tych błędów, zmierzyła poprawę i dostarczyła wynik jako część promptu systemowego. Agent zdiagnozował i naprawił sam siebie, z ludźmi w pętli jako recenzentami, nie jako prompt engineerami.
Oprócz tego v0.8.0 dodał guidance dyscypliny wykonawczej w promptach systemowych (#5414) oraz thinking-only prefill continuation dla strukturyzowanych odpowiedzi rozumowania (#5931). Jeśli używasz Hermesa z GPT-5 lub Codex, agent, z którym obudziłeś się 8 kwietnia, jest mierzalnie mądrzejszy od tego, którego uśpiłeś 7 kwietnia. Dziwne zdanie do napisania.
Zmiana modelu na żywo na każdej platformie
Druga duża rzecz to komenda /model (#5181, #5742). Możesz teraz w środku sesji zmienić model i dostawcę z CLI, Telegrama, Discorda, Slacka lub dowolnej platformy bramki. Resolver jest świadomy agregatorów: jeśli siedzisz na OpenRouter lub Nous Portal i model jest tam dostępny, zostajesz na agregatorze; jeśli nie, przeskakuje do bezpośredniego dostawcy. Telegram i Discord dostają interaktywne pickery z inline'owymi przyciskami — tapujesz model, który chcesz, nie trzeba wpisywać nazwy.
Połącz to z pulami poświadczeń z v0.7.0 i łańcuchami fallbacku z v0.6.0, a historia niezależności od dostawcy z poprzedniego artykułu jest teraz kompletna: możesz budować, rozbierać i odbudowywać swoją konfigurację modeli bez jednego restartu.
Darmowy Gemini, darmowy MiMo
Dwa duże dodatki dostawców: natywny Google AI Studio (Gemini) jako pełnoprawny dostawca (#5577), z automatyczną integracją z rejestrem models.dev do wykrywania długości kontekstu w czasie rzeczywistym, oraz darmowy Xiaomi MiMo v2 Pro na Nous Portal (#6018) do zadań pomocniczych jak kompresja, wizja i podsumowanie. Jeśli odkładałeś Hermesa, bo portfel się zmęczył — w tym tygodniu darmowy tier stał się wyraźnie bardziej przydatny.
Powiadomienia o zadaniach w tle
notify_on_complete to rodzaj drobnej zmiany, która przebudowuje sposób pracy w terminalu. Zadania w tle teraz automatycznie zgłaszają się do agenta po zakończeniu. Odpalasz trening, zestaw testów, build czy deploy, a agent idzie robić co innego. Kiedy zadanie w tle się kończy, agent dostaje sygnał i może podjąć wynik. Żadnego pollingu, żadnych pętli „czy już gotowe?".
Timeouty nieaktywności, przyciski zatwierdzania i reszta
Jeszcze dwie zmiany warte uwagi. Pierwsza: timeouty agenta oparte na nieaktywności (#5389, #5440) — timeouty bramki i cronów śledzą teraz faktyczną aktywność narzędzi zamiast czasu zegarowego. Długotrwałe zadanie, które naprawdę pracuje, nigdy nie zostanie zabite — timeout dostają tylko naprawdę nieaktywne sesje. To naprawia najbardziej irytujące zachowanie agentów cronowych: zabijanie ich w połowie prawdziwej pracy.
Druga: przyciski zatwierdzania na Slacku i Telegramie (#5890, #5975). Zatwierdzanie niebezpiecznych poleceń nie wymaga już wpisywania /approve — tapujesz natywny przycisk platformy. Slack dostaje też zachowanie kontekstu wątku; Telegram dostaje emoji-reakcje na status zatwierdzenia.
I całe mnóstwo rzeczy, z których każda zasługuje na osobny wpis: uwierzytelnianie MCP OAuth 2.1 PKCE (#5420), skanowanie OSV paczek rozszerzeń MCP pod kątem malware (#5305), Matrix na poziomie tier-1 z reakcjami i potwierdzeniami odczytu (#5275), scentralizowane strukturyzowane logowanie do ~/.hermes/logs/ z komendą hermes logs (#5430), walidacja struktury konfiguracji przy starcie (#5426) i przejście security hardening: SSRF, ataki czasowe, tar traversal, wycieki poświadczeń (#5944, #5613).
Liczby
209 zmergowanych PR-ów. 82 zamknięte issues. Jedno wydanie. Pięć dni po v0.7.0.
Jeśli ta liczba wydaje Ci się nieprawidłowa — 209 zmian w oknie pięciodniowym to naprawdę dużo — czytasz dobrze. O to chodzi. Coś w budowie tego projektu sprawia, że taka prędkość jest do utrzymania, i w pewnym momencie trzeba będzie porozmawiać o tym, dlaczego. Ale to temat następnego wpisu.