Lần đầu tôi để ý đến Hermes Agent thì đã muộn quá để gọi là sớm rồi.
Hôm đó là thứ Năm — 12 tháng 3, 2026. Không keynote, không đếm ngược, không thread ra mắt trên X. Nous Research chỉ push một git tag, chuyển repo GitHub sang public, và để lại đúng một tin nhắn trên Discord: "thứ này giờ tồn tại rồi." Đến sáng thứ Sáu, repo đã vượt nghìn sao và người ở hai mươi múi giờ đang cãi nhau nên dùng đường cài nào.
Trong hai tuần trước cái tag đó, sáu mươi ba người đóng góp chưa từng gặp nhau ngoài đời đã push 216 pull request, đóng 119 issue, và đưa bộ test từ gần như không có gì lên 3.289 test. Không ai trong số họ làm cho Nous Research. Họ cãi nhau qua comment GitHub, và đến ngày thứ mười bốn, họ ship một thứ thật sự chạy được.
Vậy hộp đó chứa gì?
Một tiến trình, bảy cửa vào
Nhân vật chính của v0.2.0 là Gateway Nhắn tin Đa nền tảng. Một tiến trình Hermes duy nhất lắng nghe đồng thời trên Telegram, Discord, Slack, WhatsApp, Signal, email IMAP/SMTP, và Home Assistant. Cùng session manager, cùng bộ nhớ, cùng registry công cụ. Trên từng nền tảng bạn có thể cấu hình skill nào khả dụng và file đính kèm xử lý ra sao, nhưng agent phía sau luôn là một agent duy nhất.
Điều này hay hơn ta tưởng, vì giải pháp thay thế thông thường — bảy bot riêng biệt, mỗi con có state riêng — là thảm họa. Bộ nhớ phân nhánh. Công cụ lệch nhịp. Hermes biến gateway thành điểm tích hợp và giữ agent luôn là một. Bạn cài nó lên VPS 5 đô rồi gọi nó từ bất kỳ app nào đang mở.
MCP gốc, không phải gắn thêm
Ngay bên cạnh gateway là client Model Context Protocol đầy đủ. Cả stdio lẫn HTTP transport. Tự kết nối lại, khám phá resource và prompt, sampling do server khởi tạo. Giải thích cho ai chưa sâu agent: MCP là chuẩn mở Anthropic công bố để LLM nói chuyện với công cụ bên ngoài theo cách thống nhất. Hầu hết framework gắn MCP vào sau như adapter chồng lên hệ thống gọi tool cũ. Hermes nối thẳng MCP vào lõi từ ngày đầu — công cụ nào nói MCP đều chạy không cần wrapper.
Skill là đơn vị hạng nhất
v0.2.0 đi kèm hơn bảy mươi skill tích hợp sẵn phân bố trên mười lăm danh mục, phía sau là thứ dự án gọi là Skills Hub: kích hoạt có điều kiện (skill chỉ tải khi đủ điều kiện tiên quyết), kiểm tra tiên quyết, và khám phá cộng đồng. Hub này sau trở thành agentskills.io. Skill ngày đầu bao gồm phân tích hình ảnh, chạy Python trong sandbox, tìm file, lấy web, và vài chục cái khác.
Quyết định kỹ thuật ở đây là: skill là đơn vị khai báo với manifest, dependency và điều kiện kích hoạt — không phải hàm Python đăng ký lúc import. Đó là lý do agent mang bảy mươi skill cùng lúc mà prompt không nổ.
Bộ định tuyến provider và lưới an toàn
Hai quyết định kiến trúc nữa trong v0.2.0 định hình mọi thứ về sau.
Thứ nhất là bộ định tuyến provider tập trung. Một API call_llm() / async_call_llm() duy nhất thay thế logic provider rải rác khắp vision, tóm tắt, nén và lưu quỹ đạo. Mọi consumer phụ đều đi qua một đường code duy nhất với tự động phân giải credential. Nghe nhàm cho đến khi bạn thử đổi provider — lúc đó bạn sửa một file thay vì mười một.
Thứ hai là cặp an toàn: cô lập bằng git worktree (hermes -w chạy mỗi session trong worktree riêng, agent không thể vô tình chạm code thật) và checkpoint hệ thống file có rollback (chụp snapshot trước thao tác phá hủy, hoàn tác bằng /rollback). Agent được phép liều vì bạn thật sự quay ngược được. Đây là khác biệt giữa "trợ lý AI thận trọng" và "trợ lý AI dám làm vì hệ thống thận trọng thay nó."
Và phía editor
Một thứ cuối bị chôn trong release notes nhưng quan trọng: hỗ trợ ACP server. Qua Agent Communication Protocol, Hermes tích hợp gốc với VS Code, Zed và JetBrains. Nó không còn là "thứ chạy trên terminal" mà sống trong editor bạn thật sự dùng.
---
Tôi cứ quay lại ngày thứ Năm tháng Ba đó. Không thông cáo, không slide, không cuộc gọi nhà đầu tư — chỉ một git tag, một lần chuyển public, và sáu mươi ba người tình cờ đã ở bên trong lúc cửa mở. Nếu phần còn lại của blog này có luận điểm, thì đó là: tốc độ của những người đang xây Hermes hoá ra quan trọng hơn tốc độ của bất kỳ tính năng riêng lẻ nào.