redakcyjne opracowania YouTube

Hermes Agent + Mixture of Agents is insane…

2026-06-29David OndrejAI zagraniczny
Hermes Agent + Mixture of Agents is insane…

Robocza publikacja redakcyjna na podstawie publicznego transkryptu YouTube. Źródło: YouTube.

O czym jest ten film

  1. Hermes Agent wprowadził funkcję „mixture of agents” (MOA), która łączy kilka modeli AI w jeden, silniejszy wynik.
  2. MOA pozwala uzyskać jakość zbliżoną do najlepszych, niepublicznych modeli (np. fable czy GPT-5.6) bez dostępu do nich.
  3. Autor wyjaśnia różnicę między „mixture of agents” a „mixture of experts” — to dwa odrębne pojęcia.
  4. MOA jest droższe i wolniejsze niż zwykłe zapytanie, więc nadaje się do trudnych zadań, nie do prostych pytań.
  5. Film pokazuje krok po kroku, jak postawić VPS na Hostingerze i zainstalować na nim Hermes Agent.
  6. Autor demonstruje, jak skonfigurować klucz API z OpenRouter i wybrać modele referencyjne oraz agregujący.
  7. Pokazany jest praktyczny test: zbudowanie i wdrożenie pełnej gry 3D przez Hermes Agent z włączonym MOA.
  8. Autor opisuje, jak zarządza wieloma agentami AI równolegle przy pomocy terminala CMAX i agenta nadzorującego (Pi).
  9. Pojawia się apel o przechodzenie na modele open source (GLM, Kimi) zamiast zamkniętych modeli OpenAI i Anthropic.
  10. Autor tłumaczy mechanizm działania MOA: modele referencyjne pracują równolegle, a agregator wybiera najlepsze odpowiedzi.

Redakcyjne tłumaczenie

Czym jest mixture of agents

Hermes Agent właśnie wprowadził funkcję „mixture of agents” (MOA) — nową możliwość, dzięki której można uzyskać inteligencję na poziomie najlepszych modeli, nawet bez dostępu do fable czy GPT-5.6. Na czym to polega? Mixture of agents odpytuje kilka różnych modeli AI naraz — Grok, GPT, Gemini, Opus, dowolne, jakie wybierzemy. Następnie wszystkie odpowiedzi trafiają do jednego agregatora, zwykle najsilniejszego z dostępnych modeli, który dopiero wtedy podejmuje decyzję i zwraca finalną odpowiedź. Innymi słowy: miksujemy modele od różnych dostawców, różnych firm, żeby wyciągnąć z każdego to, co najlepsze.

Magia polega na tym, że taki układ potrafi pokonać nawet najlepsze publicznie dostępne modele — GPT-5.5 i Opus 4.8, czyli aktualnie czołówkę rynku. Mixture of agents okazuje się lepsza od obu z osobna.

Dlaczego to ma znaczenie

Największym problemem w branży AI jest dziś to, że firmy przestały publikować swoje najlepsze modele. Jeszcze pięć lat temu brzmiałoby to absurdalnie — każda firma chciała wypuścić najlepszy model, by być liderem. Tymczasem zarówno OpenAI, jak i Anthropic dysponują bardzo silnymi modelami, które nie są publicznie dostępne.

Dlatego społeczność open source musi wziąć sprawy w swoje ręce i znaleźć sposób na uzyskanie coraz lepszych wyników bez dostępu do lepszych modeli od zamkniętych firm. Mixture of agents to dokładnie taki pomysł. Dzięki MOA można przewyższyć możliwości Opus 4.8 i GPT-5.5, sprytnie orkiestrując kilka różnych modeli w sposób produktywny i użyteczny.

Co ważne, w Hermesie taki zestaw (preset) pojawia się po prostu jako jeden model — nic się nie psuje. Wywoływanie narzędzi działa, pamięć działa, kontekst sesji działa — wszystko tak samo, jakby się po prostu przełączyło na mocniejszy model.

Elastyczność wyboru modeli i dostawców

Ciekawe w podejściu Hermesa jest to, że samodzielnie wybiera się, jakich modeli i dostawców użyć. Jeśli ktoś ma subskrypcję ChatGPT, może użyć GPT-5.5. Jeśli woli DeepSeek przez OpenRouter — też może. Dzięki temu da się uruchomić MOA na bazie już posiadanych subskrypcji, bez dodatkowych kosztów.

Kiedy używać mixture of agents

Do prostych pytań typu „jaki dziś dzień” czy „ile kalorii już dziś zjadłem” MOA to zdecydowana przesada. Ta funkcja ma sens przy trudnych zadaniach: skomplikowanym debugowaniu, code review, planowaniu architektury kodu, hardeningu bezpieczeństwa — wszędzie tam, gdzie warto dopłacić za najlepszą możliwą odpowiedź.

MOA działa w oparciu o presety — można mieć kilka różnych zestawów: jeden do dodawania nowych funkcji, inny do code review, i tak dalej. Przykładowo modele Groka świetnie radzą sobie z analizą Twittera, ale niekoniecznie nadają się do poważnego kodowania — przynajmniej na razie (krążą plotki o rychłej premierze Groka 4.5, który może to zmienić). Dzięki presetom nie trzeba wybierać jednego zestawu modeli na wszystko.

Mixture of agents a mixture of experts — ważne rozróżnienie

To dwa podobnie brzmiące, ale zupełnie różne pojęcia. Mixture of experts to architektura modelu — zamiast jednego dużego modelu mamy kilku „ekspertów” (np. osiem), z których jeden specjalizuje się w matematyce, inny w fizyce, jeszcze inny w kodowaniu. Dzięki temu duży model, który normalnie wymagałby potężnego komputera, może działać na mniejszym sprzęcie, bo w danym momencie aktywna jest tylko część parametrów.

Mixture of agents, o której mowa w tym materiale, to coś innego: kilka osobnych, kompletnych modeli AI odpowiada na to samo zapytanie, a następnie ich odpowiedzi trafiają do jednego, silnego agregatora, który łączy je w finalną odpowiedź.

Rzeczy, o których influencerzy zwykle nie mówią

Po pierwsze: więcej modeli to więcej wywołań narzędzi i więcej tokenów — a więc wyższy koszt i dłuższy czas oczekiwania. To nie jest rozwiązanie do minimalizowania kosztów ani do szybkiej pracy, tylko do wyciśnięcia maksimum z publicznie dostępnych modeli.

Po drugie: cache promptów (Informacja dodatkowa: mechanizm pozwalający nie płacić ponownie za powtarzające się fragmenty zapytań) działa bez zmian — oszczędności z tego tytułu nadal obowiązują.

Po trzecie: modele referencyjne nie „debatują” ze sobą. Działają równolegle, całkowicie niezależnie, i po prostu przekazują swoje odpowiedzi agregatorowi.

Krok 1: Konfiguracja VPS

Pierwszym krokiem jest postawienie Hermes Agenta — najlepiej na VPS (wirtualnym serwerze prywatnym). Dzięki temu agent dostaje cały, dedykowany komputer, na którym może działać 24 godziny na dobę, uruchamiając automatyzacje, zadania cykliczne i przepływy pracy, nawet gdy nasz własny komputer jest wyłączony.

Autor korzysta z Hostingera do wszystkich swoich VPS-ów — podobnie jak cały jego zespół. Hostinger ma dedykowany preset Hermes Agent, który znacznie upraszcza instalację. Wystarczy wybrać plan (KVM2 w zupełności wystarczy — pozwala uruchomić kilka różnych agentów na jednym serwerze: Hermes, Pi, Open Claw, Codex, cokolwiek potrzeba), okres rozliczeniowy (autor poleca 24 miesiące — daje to największy rabat, a w przyszłości i tak będziemy zarządzać wieloma serwerami), wpisać kod rabatowy, wybrać lokalizację serwera oraz system operacyjny (Hermes Agent lub czysty Ubuntu). Po opłaceniu trzeba ustawić hasło root i zapisać je — będzie potrzebne do połączenia z serwerem.

Krok 2: Łączenie się z VPS przy pomocy agenta AI

Zamiast samodzielnie wpisywać komendy SSH, autor poleca skorzystać z agenta AI, by zrobił to za nas. Otwiera terminal CMAX (Informacja dodatkowa: CMAX to darmowy, open source’owy multiplekser terminala, pozwalający uruchamiać wiele paneli i agentów równolegle) i uruchamia w nim Claude Code.

Kluczowa zasada brzmi: zamiast uczyć się DevOps i Linuksa od zera, warto być sprawnym orkiestratorem agentów AI i zlecać im jak najwięcej zadań — choć oczywiście podstawy terminala i inżynierii oprogramowania nadal warto znać.

Po przejściu do odpowiedniego katalogu na komputerze, autor poleca agentowi utworzenie pliku .env z adresem IP serwera, a następnie zleca innemu panelowi CMAX połączenie się przez SSH z VPS-em (hasło wpisuje samodzielnie, bo nie powinno trafiać do agenta — adres IP jest mniej wrażliwy). Po zalogowaniu agent sam sprawdza stan serwera i tworzy plik README z najważniejszymi informacjami o VPS-ie.

Krok 3: Instalacja Hermes Agent

Hostinger domyślnie instaluje Hermesa w kontenerze Docker, ale autor woli instalację na poziomie roota. W tym celu zleca Claude Code, by samodzielnie przeszukał sieć w poszukiwaniu instrukcji instalacji Hermes Agent na Ubuntu i wykonał wszystkie kroki.

W międzyczasie autor zakłada konto na OpenRouter, by uzyskać klucz API umożliwiający korzystanie z dowolnych modeli wewnątrz Hermesa. Alternatywą jest AI Gateway od Vercela (szczególnie przydatny przy modelu GLM 5.2) albo bezpośrednie subskrypcje danego dostawcy. OpenRouter agreguje wielu dostawców dla każdego modelu (np. dla GLM dostępnych jest prawie 20 różnych dostawców, więc zawsze przynajmniej jeden jest aktywny). Po założeniu konta wystarczy doładować niewielką kwotę (5–10 dolarów) i utworzyć klucz API z ustawionym limitem — MOA zużywa tokeny szybko, bo odpytuje wiele modeli naraz.

Instalacja Hermesa na VPS-ie zajęła Claude Code około 5,5 minuty.

Krok 4: Konfiguracja Hermesa z OpenRouter

Kolejny krok to uruchomienie pełnej konfiguracji Hermesa (Hermes setup, opcja pełnej konfiguracji, nie szybkiej), wybór OpenRouter jako dostawcy, wklejenie klucza API i wybór modelu — w tym przypadku GLM 5.2, według autora obecnie najlepszego modelu open source, dzięki czemu Hermes Agent jest prawdopodobnie najsilniejszym dostępnym agentem open source. Po teście („Who are you?”) agent odpowiada poprawnie — Hermes działa na VPS-ie, a Claude Code wykonał 95% konfiguracji samodzielnie.

Krok 5: Konfiguracja presetu mixture of agents

Po połączeniu Claude Code z Hermesem (tak, by Claude Code mógł zarządzać Hermesem), autor zleca skonfigurowanie presetu MOA. Jako cztery modele referencyjne wybiera: GLM 5.2, GPT-5.5, Kimi K2.7 Code oraz Opus 4.8 — wszystkie przez OpenRouter. Agregatorem, czyli modelem podejmującym ostateczne decyzje, jest Opus 4.8.

Podczas konfiguracji autor poleca ustawić różne wartości temperatury (Informacja dodatkowa: temperatura to parametr kontrolujący losowość odpowiedzi modelu — wyższa wartość oznacza więcej kreatywności i nieprzewidywalności, niższa — większą spójność): 0,9 dla modeli referencyjnych (mają „burzować mózgi”, być bardziej kreatywne) i 0,2 dla agregatora (ma być spójny i przewidywalny).

Po naprawieniu drobnego błędu z zakomentowanym kluczem API, Hermes uruchamia się ponownie i widać działanie MOA na żywo: cztery modele referencyjne (GLM 5.2, GPT-5.5, Kimi K2.7 Code, Opus 4.8) pracują równolegle, a agregator (Opus 4.8) łączy ich odpowiedzi.

Test praktyczny: budowa gry 3D

Aby przetestować MOA w praktyce, autor przełącza się na innego agenta — Pi, działającego na GLM 5.2 Fast przez Vercel AI Gateway (znacznie szybszy niż endpointy OpenRouter, około 200 tokenów na sekundę). Agent Pi ma monitorować pracę Hermesa: sprawdzać status, usypiać się na określony czas, by nie marnować tokenów, i budzić się, gdy Hermes skończy etap pracy lub utknie.

Zadanie dla Hermesa: zbudować grę 3D (opis projektu w formie pliku markdown), szybko, bez nadmiernego rozważania, z naciskiem na efektowną grafikę 3D. Agent Pi co 20–40 sekund przesyła krótkie aktualizacje statusu („Hermes liczy, pierwsza runda MOA wciąż trwa” itd.).

W pewnym momencie agent Pi zauważa, że proces utknął na 3 minuty bez żadnej aktywności narzędzi, i samodzielnie wysyła Hermesowi „prompt sterujący” („sprawdź status, jeśli NPC jest gotowy, sprawdź typy i błędy, kontynuuj w stronę wdrożenia”) — skutecznie odblokowując proces. Cały proces trwał około 20 minut (autor w tym czasie poszedł na spacer), a koszt sięgnął 20 dolarów.

Finalnie Hermes nie tylko zbudował grę (3D Flappy Bird), ale też samodzielnie ją wdrożył na publiczny adres URL — bez podawania jakichkolwiek kluczy API czy danych do autoryzacji wdrożenia. Po przetestowaniu gra działa (autor zauważa drobne niedociągnięcia w grafice i hitboxach, ale ogólnie wszystko funkcjonuje poprawnie).

Jak działa agregacja — analogia do dworu królewskiego

Autor porównuje mechanizm MOA do XVII-wiecznego francuskiego dworu królewskiego: agregator (tu: Opus 4.8) pełni rolę króla, a cztery modele referencyjne (GLM, GPT-5.5, Kimi K2.7, druga instancja Opus z inną temperaturą) są jego doradcami. Każdy z nich wyraża opinię na temat różnych etapów projektu, ale ostatecznie to agregator decyduje, czyja opinia jest najlepsza na danym etapie — przykładowo uznając, że dla jednego etapu rację ma Kimi, a dla innego GPT-5.5. To pełna merytokracja: liczy się nie to, który model „powinien” mieć rację, tylko który faktycznie ma najlepszy pomysł.

Zarządzanie wieloma agentami — znaczenie dobrych „skilli”

Autor podkreśla wagę odpowiednio przygotowanych „skilli” (zestawów instrukcji dla agentów) — to one sprawiają, że agent Pi wie, jak korzystać z CMAX, jak monitorować inne panele terminala, kiedy usypiać, a kiedy reagować. Dzięki temu, raz nauczone zasady, nie trzeba powtarzać przy każdym kolejnym zadaniu — wystarczy wspomnieć o CMAX, Claude Code czy Codexie, a agent sam sięgnie po odpowiedni skill.

Zwraca też uwagę, że efektywność pracy z agentami to nie tylko kwestia szybkiego generowania odpowiedzi (output), ale też odpowiedniego dostarczania informacji wejściowych (input) — w skondensowanej, ale nie nadmiernie uproszczonej formie. Porównuje to do zarządzania dużą organizacją: największym wyzwaniem nie jest podejmowanie decyzji, lecz dotarcie do prawdziwych, dobrze skompresowanych informacji.

Apel o modele open source

Autor zachęca do przenoszenia coraz większej części wykorzystania tokenów na modele open source, takie jak GLM czy Kimi, zamiast wysyłania wszystkich danych do OpenAI czy Anthropic. Jego zdaniem te firmy zebrały ogromne ilości danych ze świata (wiedzę, sztukę, kod, literaturę), wykorzystały je do budowy własnych, zamkniętych modeli o gigantycznych marżach, a teraz przestają udostępniać najlepsze wersje publicznie.

Odrzuca też popularne przekonanie, że modele trenowane w Chinach (jak GLM czy Kimi) są gorsze lub mają jakieś ukryte „tylne furtki” pozwalające na kradzież danych. Skoro są to modele o otwartych wagach (open weights), można je samodzielnie uruchomić na własnym klastrze GPU w dowolnym kraju — Europie, Australii, USA czy Brazylii — bez przesyłania danych do Chin.

Zwraca uwagę, że subskrypcje typu ChatGPT Pro czy Claude Max nie są dotowane, jak wielu sądzi — w rzeczywistości firmy te mają bardzo wysokie marże na API (ponad 90%), a niższa cena subskrypcji to swego rodzaju przynęta, która ma skłonić użytkowników do zbudowania całego biznesu na zamkniętych modelach. Dlatego apeluje, by nie uzależniać swojej działalności od zamkniętych dostawców — w jego ocenie za dwa, trzy lata dostęp do AI będzie ważniejszy niż dostęp do wody, a samodzielne hostowanie modeli da większą niezależność.

Podsumowanie

Cała konfiguracja — od postawienia VPS, przez instalację Hermes Agent, po skonfigurowanie presetu mixture of agents i przetestowanie go na realnym projekcie — jest, zdaniem autora, stosunkowo prosta, jeśli korzysta się z agentów AI do wykonania większości pracy. MOA nie jest tanie ani szybkie, ale pozwala uzyskać wyniki zbliżone do poziomu niepublicznych, najsilniejszych modeli na rynku, korzystając wyłącznie z publicznie dostępnych narzędzi.

10 najważniejszych takeaways — z kontekstem zastosowania

1.Mixture of agents jako sposób na ominięcie ograniczeń dostępu do najlepszych modeli

Na czym polega: MOA łączy odpowiedzi kilku różnych modeli AI (np. GLM, GPT, Kimi, Opus), a następnie agregator wybiera i syntetyzuje najlepsze elementy w jedną finalną odpowiedź.

Jak stosować: Skonfiguruj preset MOA w Hermes Agent z kilkoma modelami referencyjnymi i jednym silnym agregatorem, gdy potrzebujesz jakości zbliżonej do niepublicznych, najsilniejszych modeli.

Na co uważać: To rozwiązanie znacznie podnosi koszty i czas odpowiedzi — nie nadaje się do prostych, rutynowych zapytań.

2.Mixture of agents to nie to samo co mixture of experts

Na czym polega: Mixture of experts to architektura pojedynczego modelu z wieloma wyspecjalizowanymi „podmodelami”, z których aktywna jest tylko część. Mixture of agents to kilka osobnych, kompletnych modeli odpowiadających równolegle na to samo pytanie.

Jak stosować: Używaj tych terminów precyzyjnie przy wyborze narzędzi i przy komunikacji z zespołem technicznym, by uniknąć nieporozumień.

Na co uważać: Te pojęcia brzmią podobnie i łatwo je pomylić w materiałach marketingowych czy dokumentacji.

3.MOA ma sens tylko przy trudnych, wartościowych zadaniach

Na czym polega: Ze względu na wyższy koszt i czas oczekiwania, MOA powinno być rezerwowane dla skomplikowanego debugowania, code review, planowania architektury czy hardeningu bezpieczeństwa.

Jak stosować: Twórz osobne presety MOA dla różnych typów zadań (np. jeden do nowych funkcji, inny do przeglądu kodu) i włączaj je świadomie, a nie domyślnie.

Na co uważać: Używanie MOA do prostych zapytań to niepotrzebne marnowanie tokenów i pieniędzy.

4.Dobór modeli referencyjnych i agregatora ma znaczenie

Na czym polega: W demonstracji wybrano GLM 5.2, GPT-5.5, Kimi K2.7 Code i Opus 4.8 jako modele referencyjne, z Opus 4.8 jako agregatorem podejmującym finalne decyzje.

Jak stosować: Dobieraj modele referencyjne pod kątem ich mocnych stron (np. inne modele do front-endu, inne do back-endu) i ustaw najsilniejszy dostępny model jako agregatora.

Na co uważać: Minimalna liczba modeli referencyjnych, przy której MOA ma sens, to dwa — więcej modeli oznacza jednak proporcjonalnie wyższy koszt.

5.Temperatura modeli referencyjnych i agregatora powinna się różnić

Na czym polega: W konfiguracji ustawiono wyższą temperaturę (0,9) dla modeli referencyjnych, by były bardziej kreatywne, oraz niższą (0,2) dla agregatora, by jego decyzje były spójne i przewidywalne.

Jak stosować: Przy konfigurowaniu presetów MOA różnicuj temperaturę zgodnie z rolą modelu — kreatywność dla „doradców”, stabilność dla decydenta.

Na co uważać: Zbyt wysoka temperatura agregatora może prowadzić do niespójnych, niestabilnych finalnych odpowiedzi.

6.Agenci AI mogą sami skonfigurować infrastrukturę (VPS, instalację Hermesa)

Na czym polega: Zamiast ręcznie obsługiwać SSH i komendy terminala, autor poleca agentowi (Claude Code) samodzielne połączenie z VPS-em, instalację Hermesa i konfigurację dostawcy modeli.

Jak stosować: Opisuj agentowi cel na wysokim poziomie ogólności („zainstaluj Hermes Agent na tym serwerze”) i pozwól mu samodzielnie wykonać kroki techniczne, zamiast wydawać polecenie po poleceniu.

Na co uważać: Mimo automatyzacji warto rozumieć podstawy terminala i administrowania serwerem, by móc zweryfikować działania agenta.

7.Jeden agent może nadzorować pracę drugiego agenta

Na czym polega: W demonstracji agent Pi monitorował pracę Hermes Agent, usypiając się w okresach bezczynności i wysyłając „prompty sterujące”, gdy proces utknął.

Jak stosować: Przy długotrwałych zadaniach skonfiguruj jednego agenta jako nadzorcę drugiego, by automatycznie wykrywał zacięcia i wznawiał pracę bez ciągłego nadzoru człowieka.

Na co uważać: Taki układ wymaga odpowiednio przygotowanych „skilli” (instrukcji), inaczej agent nadzorujący nie będzie wiedział, jak monitorować i sterować drugim agentem.

8.Skille (zapisane instrukcje) pozwalają skalować pracę z agentami

Na czym polega: Zapisane wcześniej zasady (np. dotyczące obsługi CMAX) sprawiają, że agent automatycznie wie, jak zarządzać wieloma panelami terminala i innymi agentami, bez konieczności powtarzania instrukcji za każdym razem.

Jak stosować: Dokumentuj powtarzające się procedury jako skille, do których agent może sięgnąć przy okazji podobnych zadań w przyszłości.

Na co uważać: Inwestycja w przygotowanie skilli zwraca się dopiero przy regularnym, powtarzalnym korzystaniu z agentów — przy jednorazowych zadaniach może być nieopłacalna.

9.Modele open source (GLM, Kimi) są realną alternatywą dla modeli zamkniętych

Na czym polega: Autor twierdzi, że modele takie jak GLM 5.2 czy Kimi K2.7 dogoniły czołówkę i są znacznie tańsze niż modele OpenAI czy Anthropic, ponieważ nie mają tak wysokich marż na API.

Jak stosować: Rozważ przenoszenie części obciążeń obliczeniowych na modele open source — szczególnie do zadań, gdzie różnica jakości względem modeli zamkniętych jest niewielka.

Na co uważać: To opinia autora oparta na bieżącym stanie rynku (czerwiec 2026) — przewaga jakościowa i cenowa modeli może się zmieniać wraz z kolejnymi wersjami.

10.MOA wiąże się z istotnym, mierzalnym kosztem

Na czym polega: W demonstracji koszt zbudowania i wdrożenia jednej gry 3D przy użyciu MOA wyniósł około 20 dolarów, a sam proces trwał blisko 20 minut.

Jak stosować: Zawsze ustawiaj limit wydatków na kluczu API przed uruchomieniem MOA i traktuj tę funkcję jako narzędzie do zadań o wysokiej wartości, nie do codziennej pracy.

Na co uważać: Koszty mogą rosnąć nieliniowo wraz ze złożonością zadania i liczbą rund agregacji — warto monitorować wydatki na bieżąco (np. w panelu OpenRouter).