I Tested Every Major AI Model For Deep Thinking. Two Surprised Me.

O czym jest ten film

Większość ludzi używa AI wyłącznie do programowania, ale autor pokazuje zastosowanie, które może wykonać tylko AI — analizę własnego myślenia na podstawie wieloletnich danych osobistych.
Chodzi o zbudowanie „żywego archiwum” — stale rosnącej bazy nagrań, notatek i artykułów, które AI analizuje pod kątem wzorców myślenia, punktów ślepych i dryfu ideologicznego.
Kluczowy problem: większość modeli AI jest „pochlebcza” — zgadza się z użytkownikiem i wzmacnia jego bańkę informacyjną, zamiast ją przełamywać.
Rozwiązaniem jest zaprojektowanie systemu, który celowo wchodzi w kontrę i wystawia pomysły użytkownika na brutalną próbę.
Dane tego typu są na tyle wrażliwe, że autor odradza przekazywanie ich chmurowym gigantom (Anthropic, OpenAI, Google) — poleca modele lokalne.
Autor przetestował kilka modeli pod kątem głębokiego, strategicznego myślenia i wskazuje dwóch zwycięzców: GLM 5.2 (chmura) oraz Qwen 3.6 27B (lokalnie).
Zaskoczeniem jest to, że mały, otwartoźródłowy model 27B dorównuje modelom frontier liczącym biliony parametrów.
Omówione są wymagania sprzętowe do uruchamiania takich modeli lokalnie — ilość RAM/VRAM, prędkość w tokenach na sekundę i konkretne urządzenia (Mac Studio, RTX 5090, ASUS GX10).
Autor przestrzega przed pokusą „leniwego promptowania” przy szybkich modelach oraz przed iluzją, że chmura zawsze będzie tańsza od własnej infrastruktury.
Na koniec zaprasza do społeczności na Discordzie, gdzie użytkownicy dzielą się projektami i eksperymentami z AI.

Redakcyjne tłumaczenie

AI to nie tylko kodowanie

Większość ludzi wykorzystuje sztuczną inteligencję głównie do programowania. Sam pomysł jest świetny — można budować własny biznes, tworzyć aplikacje, rozwijać gry. Nie trzeba być programistą, żeby uruchomić kolejny startup typu SaaS. To wszystko działa, widzieliśmy to, i każdy może to odkrywać na własną rękę.

Są jednak rzeczy, które potrafi robić wyłącznie AI — czynności, których nie wykona żaden inżynier oprogramowania, bo nie chodzi o tworzenie narzędzia, lecz o funkcję, jaką może pełnić tylko sztuczna inteligencja. To właśnie zmienia wszystko, zwłaszcza dla tych, którzy nie są programistami.

Prywatne myślenie jako materiał do analizy

Wyobraźmy sobie AI jako narzędzie zdolne przetwarzać ogromne ilości danych. A teraz pomyślmy, co się stanie, jeśli oddamy mu nasze najbardziej prywatne myśli i dane — po to, żeby przeanalizowało, jak funkcjonuje nasz umysł i jak z czasem dryfuje między ideami.

To istotne, ponieważ nikt inny nigdy nie będzie miał dostępu do aż tylu danych o nas — jesteśmy jedynymi ich posiadaczami. Sami nie jesteśmy w stanie przeprowadzić takiej analizy: albo zajmuje to zbyt dużo czasu, albo jesteśmy zbyt stronniczy wobec własnych myśli. Ale jeśli przekażemy te dane AI i poprosimy o wyszukanie wzorców, punktów ślepych, brakującego strategicznego myślenia czy dryfu w stronę jakiejś ideologii zmieniającej kierunek naszego życia — to staje się możliwe, bo mamy do dyspozycji lata zgromadzonych danych.

Aby jednak móc podać AI takie dane, trzeba je najpierw zebrać. Wielu ludzi robi to poprzez prowadzenie dziennika, aktywność w mediach społecznościowych, blog albo inną formę dzielenia się wiedzą. Kluczowe jest uchwycenie tej wiedzy, uporządkowanie jej i przekazanie AI za pomocą odpowiednio zaprojektowanych promptów.

(Autor zapowiada, że szczegółowe prompty i opis architektury systemu opisał osobno w artykule na Substacku, linkowanym w opisie filmu.)

Dlaczego trzeba zaprojektować sprzeciw, a nie zgodę

Większość systemów AI ma za zadanie się z nami zgadzać. Dlatego potrzebujemy architektury, która celowo buduje sprzeciw. Dlaczego to takie ważne? Bo jeśli rozmawiam z AI, a ono staje się moim lustrem — powtarzającym to, co już myślę — to staje się narzędziem, które utrwala bańkę informacyjną. Wzmacnia ją, bo zaczynam widzieć w niej samego siebie, a AI ciągle powtarza: „Jesteś świetny. To jest niesamowite. To zadziała. Zróbmy to razem”. W efekcie zaczynam żyć w tej bańce.

Naszym zadaniem jest tę bańkę przełamywać. To naturalne, że każdy z nas żyje we własnej bańce — widzimy świat z perspektywy swoich oczu, czujemy go swoimi zmysłami, nie wiemy nawet, czy cokolwiek na zewnątrz jest w ogóle realne. Wszystko, co doświadczamy, jest w jakimś sensie bańką. Pytanie brzmi: jak bardzo można ją poszerzyć, żeby nie czuć się ograniczonym wąskim systemem myślenia? To właśnie jest nasze zadanie — przełamywać stale odtwarzającą się bańkę.

Jeśli natomiast AI będzie tę bańkę wzmacniać, coraz trudniej będzie z niej wyjść. Każda osoba na stanowisku władzy jest szczególnie narażona na życie w bańce — wszyscy się z nią zgadzają, wszyscy mówią „to jest niesamowite, to zadziała”. Im więcej władzy, tym bardziej potrzebny jest system, który pomaga się z tej bańki wyrwać. A osiąga się to poprzez celowe projektowanie sprzeciwu.

System, który atakuje twoje pomysły

Potrzebny jest system, który stawia opór. Wyobraźmy sobie, że masz świetny pomysł na biznes — piękny, wszyscy go lubią, ty go lubisz, nawet AI przyznaje, że ma potencjał. Ale skąd wiesz, że nie ma w nim punktów ślepych? Skąd wiesz, że coś dałoby się zoptymalizować inaczej? Potrzebujesz systemu, który zaatakuje samą architekturę pomysłu — brutalnie, z pełną siłą, próbując go zniszczyć, pokazać, że jest nieużyteczny, bo pomysł jest po prostu zły. Dajesz temu systemowi tak dużo mocy, że musisz się bronić.

Teraz masz AI, które atakuje każdy element pomysłu, testuje każdą słabość, wykorzystuje każdą lukę, o której nie pomyślałeś wystarczająco głęboko. Zadaje pytania, przedstawia scenariusze, w których pomysł się sprawdza lub nie. Jeśli zaczniesz się z tym mierzyć i wchodzić w interakcję z tą rzeczywistością, wzmacniasz swój pomysł — masz o wiele jaśniejszy obraz wyzwań, ryzyk, punktów ślepych, których wcześniej nie widziałeś, oraz szans, których wcześniej nie brałeś pod uwagę.

Tego rodzaju pracy nie da się łatwo znaleźć — chyba że zapłacisz komuś, kto przeanalizuje cały twój biznes, cały twój projekt, i weźmie na siebie rolę kogoś, kto cię wyzywa na pojedynek intelektualny. Nikt nie ma czasu, żeby przejść przez całą twoją historię, przeczytać cały biznesplan, poznać twoją filozofię i wartości, a potem jeszcze rzucić ci wyzwanie na takim poziomie.

I właśnie tutaj AI daje coś, czego nic innego nie może zaoferować. To sposób wykorzystania AI do wysokopoziomowego myślenia i strategii — dla każdego, od prezesa firmy po filozofa czy twórcę kreatywnych pomysłów. To zupełne przeciwieństwo zastępowania człowieka — system nie ma optymalizować cię z obiegu myślowego, tylko wyostrzać twoje myślenie, żeby twoje pomysły stawały się lepsze. To jest AI rzemieślnika — takie, które wzmacnia i poszerza twoje zdolności myślenia, zamiast je zastępować.

Jak zbudować taki system: żywe archiwum

Jak to osiągnąć w praktyce? Kluczowych elementów jest kilka. Po pierwsze, trzeba zbierać własne dane — mieć miejsce, do którego trafia wszystko. To „żywe archiwum” — stale rosnący zbiór, do którego trafia wszystko, co wypływa z twojego umysłu, bo właśnie to próbujemy zmapować: sposób myślenia, cenione wartości i tak dalej.

Można stworzyć dedykowane dokumenty — autor nazywa je „kreatywnym DNA”. AI zadaje serię pytań, które pomagają zmapować twoje wartości i idee. Sposób działania jest taki: najpierw dajesz AI wszystko, co masz, a potem pytasz je, gdzie są luki — czego jeszcze potrzebuje, żeby cię lepiej zrozumieć. Dzięki temu AI zadaje ci dalsze pytania.

Przykład: powiesz, że twoją wartością jest „kochać wszystkich”. Ale dopóki nie wyjaśnisz, jak ta wartość przekłada się na konkretne sytuacje, jest tylko teorią. Jeśli AI drąży temat coraz głębiej, w końcu powstaje coś bardzo konkretnego — coś, co przypomina twoją osobistą filozofię, twoją Gwiazdę Polarną, która mówi ci, kim jesteś i dokąd zmierzasz. A ponieważ ta filozofia jest już jasno zdefiniowana, można z czasem prosić AI o sprawdzenie, czy w ciągu ostatnich, powiedzmy, sześciu miesięcy nie zboczyłeś ze swojej pierwotnej ścieżki, czy sytuacja się poprawia, czy stajesz się bardziej zestresowany, czy twój umysł staje się jaśniejszy. Analiza danych intelektualnych rozłożonych w czasie potrafi zrobić ogromną różnicę.

Prywatność danych i lokalna AI

Zbieranie danych jest trudne i wymaga strategii, ale trzeba je też chronić — ich wartość jest ogromna, a nikt nie powinien mieć do nich dostępu ani ich kontrolować. Jak więc korzystać z AI, pracując na tych danych, tak żeby nikt inny nie miał do nich wglądu? Najlepszym rozwiązaniem jest lokalna AI.

Częsty zarzut brzmi: „W porządku, dane mogą zostać lokalnie, ale model działający lokalnie nie jest wystarczająco dobry do tego typu pracy”. I tutaj autor ma dobrą wiadomość — bo eksperymentuje z tym od miesięcy, zbierając dane przez ponad rok, a w swoim systemie ma nawet cztery lata materiału dotyczącego własnego myślenia i teorii. Opracował dwie filozofie — jedną dotyczącą AI, drugą wspólnotową, częściowo się one przenikają. Codziennie nagrywa co najmniej godzinę swojego myślenia na głos, a te nagrania trafiają do AI. Dochodzą do tego filmy na YouTube (kolejna forma myślenia na głos) oraz artykuły typu deep dive, które pisze o AI od czterech lat.

Choć duża część tych danych jest publiczna (YouTube, artykuły), część nagrań z głębokim, prywatnym myśleniem publiczna nie jest. Autor stosuje protokół: nagranie audio zamienia się w transkrypcję, a ta zostaje uporządkowana przez prompt, który nadaje jej strukturę, ale nie zmienia ani nie „poprawia” sensu — chodzi o to, żeby zachować kruche, surowe myśli, a nie je optymalizować. Te dokumenty trafiają do żywego archiwum razem z surowymi danymi, przechowywanego lokalnie na jego komputerze. Jedynym podmiotem z dostępem jest jego lokalny model AI.

Ranking modeli: GLM 5.2 i Qwen 3.6 27B

Autor testował różne modele — czasem chmurowe, żeby porównać jakość. Jego wniosek na dziś: istnieją dwie naprawdę dobre opcje — jedna chmurowa, druga lokalna.

Do chmury nigdy nie oddałby swoich danych Anthropicowi, OpenAI ani Google’owi — nie ufa im na tyle, bo wszystkie te firmy trenują swoje modele na danych użytkowników. Są opcje chmurowe deklarujące, że nie trenują na danych klientów, choć nigdy nie ma na to stuprocentowej pewności. Z takich opcji autor wybrał GLM 5.2 — model, który uznaje za wręcz lepszy od modeli typu „frontier”, ponieważ te ostatnie są dziś mocno zoptymalizowane pod kątem kodowania, przez co ich styl pisania nie jest przyjemny w odbiorze przy wysokopoziomowym myśleniu. GLM 5.2 jest przy tym dużo tańszy, co ma znaczenie, gdy chce się intensywnie pracować na dużych ilościach danych bez ciągłego kalkulowania kosztów.

Prawdziwym zaskoczeniem był jednak model Qwen 3.6 27B (27 miliardów parametrów), zaprojektowany głównie do kodowania i pracy agentowej — a mimo to zaskakująco dobrze radzący sobie z analizą problemów i jakością pisania. Jako mały model może działać na wielu różnych sprzętach, choć nie na najtańszych komputerach — potrzeba co najmniej 24–32 GB pamięci RAM, co spełnia większość MacBooków Pro (a nawet część modeli Air) czy porządny komputer do gier.

Znaczenie prędkości: tokeny na sekundę

Problemem przy modelach lokalnych bywa prędkość — liczba tokenów generowanych na sekundę, decydująca o tym, jak płynnie pracuje się z AI. Zbyt wolne tempo frustruje i rozprasza uwagę. To kwestia indywidualna — trzeba dopasować prędkość modelu do własnego tempa myślenia (choć szybsze myślenie nie zawsze jest lepsze).

Autor osobiście potrzebuje co najmniej 50 tokenów na sekundę, żeby nie czuć frustracji — przy 30 może pracować bez problemu, poniżej zaczyna się irytować. Dla większości ludzi 30 tokenów na sekundę to komfortowe tempo pracy.

Wyższa prędkość nigdy nie szkodzi, bo wtedy to AI czeka na człowieka, a nie odwrotnie. Jest jednak pułapka: przy bardzo szybkim modelu łatwo pomyśleć „nie muszę dobrze formułować promptu, bo jeśli wynik będzie słaby, po prostu spróbuję jeszcze raz” — jak przy automacie do gier. To skłonność do lenistwa, której trzeba unikać: zamiast tego warto strategicznie przygotowywać naprawdę dobre, przemyślane prompty.

Dlaczego wiedza kontekstowa jest ważniejsza niż surowa moc modelu

Kluczem jest wspomniane wcześniej żywe archiwum, czyli długoterminowa pamięć. Sam model, choćby najpotężniejszy, nic nie znaczy, jeśli nie ma dostępu do naszej wiedzy. Dopiero gdy dzielimy się wiedzą, AI może rozumować w naszym kontekście, a jego odpowiedzi zaczynają mieć sens.

To zmienia całą grę: skoro nie można ufać OpenAI ani Anthropicowi, nie da się w praktyce użyć Claude’a czy GPT-5.5 do tego typu głębokiej pracy myślowej — dzielenie się z nimi tak dużą ilością intymnych, osobistych danych byłoby nierozsądne. W efekcie te potężne modele, choćby najbardziej zaawansowane, nie mogą wykonać pracy, którą wykona mniejszy, tańszy model działający lokalnie — bo tylko wtedy istnieje odpowiedni poziom zaufania połączony z dostępem do pełnej wiedzy o użytkowniku.

Test porównawczy modeli

Autor przeprowadził test: dał tę samą wiedzę i ten sam prompt kilku modelom typu frontier (GPT 5.5, Gemini), a także mniejszym modelom (MiniMax M3, GLM 5.2) oraz lokalnym (Qwen 3.6 27B, a także wariant 35B z 3 miliardami aktywnych parametrów). Wyniki oceniła następnie inna AI pod kątem jakości rozumowania — bez informacji, który model wygenerował którą odpowiedź.

Według oceny AI kolejność była następująca: 1. GLM 5.2, 2. GPT 5.5 z włączonym trybem myślenia (bez trybu myślenia model okazał się bezużyteczny i zajął ostatnie miejsce), 3. Qwen 3.6 27B. Natomiast według własnej, ludzkiej oceny autora, Qwen 3.6 27B zasłużył na drugie miejsce — co jest zaskakujące, biorąc pod uwagę, że GPT 5.5 ma prawdopodobnie 2–3 biliony parametrów, GLM 5.2 około 750 miliardów, a Qwen 27B — jedynie 27 miliardów.

Dwa modele, które wygrały (według AI: pierwsze i trzecie miejsce; według autora: pierwsze i drugie), są modelami open source. Powodów, dla których modele typu frontier nie zajęły szczytu, jest kilka: do tego rodzaju pracy nie potrzeba modelu pochlebczego, generującego listy punktowane — potrzeba modelu, który potrafi z użytkownikiem rozumować, analizować, strategizować i rzucać wyzwanie.

GPT 5.5 bez trybu myślenia dążył głównie do „przypodobania się” — wynik był praktycznie bezużyteczny do głębszej pracy myślowej (choć dobrze sprawdza się np. w streszczeniach czy tłumaczeniach). Wersja z myśleniem była lepsza, ale nadal zbyt sztywno ustrukturyzowana, co utrudniało naturalną interakcję. MiniMax wypadł podobnie, a nawet gorzej — jego odpowiedzi przypominały bardziej kod niż płynny, ludzki tekst, co wymagało dodatkowej „konwersji” na bardziej naturalną formę. GLM wykonał świetną robotę, a Qwen 3.6 27B okazał się „wystarczająco dobry” — moment, który autor określa jako przełomowy, bo pokazuje, że 27 miliardów parametrów może dorównać modelom liczącym biliony.

Suwerenność danych ważniejsza niż surowa inteligencja modelu

Autor deklaruje, że osobiście inwestuje w ten kierunek: posiadanie suwerennego systemu, któremu można zaufać z własnymi danymi, jest ważniejsze niż korzystanie z bardziej inteligentnego systemu, który niczego o nas nie wie. Modele, które trenują na danych użytkowników w celu ich profilowania, automatycznie wykluczają się z tego typu zastosowań — niezależnie od tego, czy są „lepsze”, bo w praktyce i tak nie są użyteczne w tym kontekście.

Wymagania sprzętowe do uruchamiania modeli lokalnie

Uruchamianie takich modeli lokalnie nie jest tanie, choć jest osiągalne dla wielu osób i warte inwestycji. Idealnie potrzeba co najmniej 32 GB pamięci RAM (można działać nawet na 24 GB, ale wtedy model jest mocniej skwantyzowany, a okno kontekstowe krótsze). Chodzi tu zarówno o pamięć zunifikowaną (np. w DGX Spark, komputerach Apple czy nadchodzącym chipie RTX Spark dla Windows), jak i o VRAM w kartach graficznych — te ostatnie działają zwykle szybciej.

Przykładowo Mac Studio M3 Ultra (najmocniejszy sprzęt Apple do AI, kosztujący ok. 15 000 dolarów) ma podobną prędkość do średniej klasy karty graficznej do gier. Z kolei RTX 5090 od Nvidii z 32 GB pamięci ma ponad dwukrotnie wyższą przepustowość pamięci niż Mac Studio, co przekłada się na wyższą liczbę tokenów na sekundę. Wybór zależy od tego, jaką prędkość akceptujemy — wolniejsza oznacza oszczędność pieniędzy, szybsza wymaga większej inwestycji.

Autor korzysta z odpowiednika GTX Spark — ASUS GX 10, z 128 GB pamięci zunifikowanej, co pozwala załadować niemal każdy model, w tym Qwen 27B. Problem w tym, że działa on u niego z prędkością zaledwie 10–12 tokenów na sekundę (ponoć są użytkownicy osiągający nawet 20). To wciąż mniej, niż autor potrzebuje do komfortowej pracy. Inne modele, jak Qwen 3.6 35B z 3 miliardami aktywnych parametrów, działają u niego znacznie szybciej (średnio ok. 60 tokenów/s), ale kosztem jakości wyników w porównaniu do wersji 27B.

(Informacja dodatkowa: autor wspomina też o firmie „Orni”, która ma dostarczać dostrojoną wersję modelu Qwen 3.6 35B z 3 mld aktywnych parametrów, zoptymalizowaną głównie pod kodowanie — sam jej nie testował, ale sugeruje sprawdzenie, czy sprawdza się też do wysokopoziomowego myślenia.)

Trend: małe modele stają się coraz mocniejsze

Autor zauważa wyraźny trend: z czasem małe modele stają się coraz „inteligentniejsze na token”, mimo że liczba parametrów pozostaje taka sama — poprawia się jakość rozumowania dostępna z tej samej liczby parametrów. Sprzęt, który kupił kilka miesięcy temu, dziś ma dostęp do znacznie lepszych modeli niż w chwili zakupu — ten sam sprzęt zyskuje na wartości w sensie tego, co można z niego wycisnąć. Nie namawia nikogo do wydawania od razu kilkunastu tysięcy dolarów — to indywidualna kalkulacja — ale podkreśla, że dziś lokalne modele dają realnie dobre wyniki.

Dodatkowa zaleta lokalnego rozwiązania: pełna prywatność, pełna kontrola i możliwość działania 24 godziny na dobę, 7 dni w tygodniu — np. praca intelektualna w jednym czasie, a kodowanie, eksperymenty czy generowanie obrazów w innym. Raz kupiony sprzęt pracuje za darmo i należy tylko do użytkownika.

Ekonomia: chmura kontra własna infrastruktura

Autor przyznaje, że jeśli zrobić czysto finansowy rachunek, trudno dziś uzasadnić zakup drogiego sprzętu do uruchamiania modeli lokalnie, skoro chmura jest tak tania. Ale ostrzega, że to złudzenie — chmura nie pozostanie tania na zawsze, a firmom chmurowym nie można ufać, że nie ograniczą dostępu do swoich narzędzi wedle własnego uznania, co oznacza uzależnienie od architektury, nad którą nie mamy kontroli. Choć bilans finansowy jest dziś rzeczywiście niekorzystny dla rozwiązań lokalnych, warto pamiętać: coś, co posiadasz i kontrolujesz, można budować w biznes; coś, co kontroluje ktoś inny, stawia twój biznes w poważnym niebezpieczeństwie, bez pewności co do przystępności cenowej czy dostępności w przyszłości.

Zaproszenie do społeczności

Na koniec autor zaprasza widzów do swojej społeczności liczącej 1700 osób, rosnącej codziennie, w której uczestnicy uczą się od siebie nawzajem, dzielą projektami i budują wspólnie. Organizowane są codzienne spotkania od poniedziałku do piątku — czasem dyskusje o AI, czasem eksperymenty w formie mikro-hackathonów, czasem prezentacje projektów członków społeczności. Link do serwera Discord znajduje się w opisie filmu.

10 najważniejszych takeaways — z kontekstem zastosowania

1.Twórz „żywe archiwum” swojego myślenia

Na czym polega: Systematyczne gromadzenie wszystkich śladów własnego myślenia — nagrań głosowych, notatek, artykułów, transkrypcji rozmów — w jednym, stale rosnącym repozytorium.

Jak stosować: Zacznij od regularnego nagrywania siebie na głos (np. codziennie przez kilkanaście minut), przepisywania tego na tekst i zapisywania obok już istniejących materiałów (blog, artykuły, notatki). Im dłuższy horyzont czasowy danych, tym lepsza analiza trendów i dryfu myślowego.

Na co uważać: To wymaga dyscypliny i czasu — bez konsekwentnego zbierania danych przez miesiące analiza nie będzie miała wartości. Zadbaj też od początku o bezpieczne przechowywanie tych danych, zanim jeszcze zdecydujesz, jakiego modelu użyjesz do ich analizy.

2.Projektuj sprzeciw, a nie zgodę

Na czym polega: Domyślne ustawienie większości modeli AI to „zgadzanie się” z użytkownikiem, co wzmacnia bańki poznawcze zamiast je przełamywać.

Jak stosować: Formułuj prompty, które wprost proszą model o krytykę, wskazanie słabości, punktów ślepych i alternatywnych scenariuszy porażki, zamiast pytać „czy to dobry pomysł?”. Rozważ osobny „tryb adwokata diabła” w swoim systemie promptów.

Na co uważać: Nadmiernie „posłuszny” model (zwłaszcza w trybie bez rozumowania) może dawać pozornie sensowne, ale w praktyce bezużyteczne pochlebstwa — trzeba świadomie wymuszać rzeczową krytykę.

3.Nie dziel się wrażliwymi danymi osobistymi z modelami chmurowymi wielkich firm

Na czym polega: Autor odradza przekazywanie prywatnych, intymnych danych myślowych dostawcom takim jak OpenAI, Anthropic czy Google, ponieważ mogą one trenować modele na danych użytkowników.

Jak stosować: Do głębokiej, osobistej pracy analitycznej rozważ modele lokalne albo dostawców chmurowych, którzy deklarują (i najlepiej kontraktowo gwarantują), że nie trenują na danych klientów.

Na co uważać: Nawet deklaracje „nie trenujemy na twoich danych” nie dają stuprocentowej pewności — to kwestia zaufania, a nie twardej gwarancji technicznej.

4.Rozważ model GLM 5.2 do wysokopoziomowego myślenia w chmurze

Na czym polega: Według testów autora GLM 5.2 przewyższa modele typu frontier (mocno zoptymalizowane pod kodowanie) w jakości głębokiego rozumowania i stylu pisania, a przy tym jest znacznie tańszy.

Jak stosować: Jeśli potrzebujesz rozwiązania chmurowego do analizy strategicznej czy pisania, przetestuj GLM 5.2 zamiast domyślnie sięgać po najdroższy model frontier.

Na co uważać: To ocena jednej osoby na podstawie własnych testów w konkretnym zastosowaniu (myślenie strategiczne, nie kodowanie) — warto zweryfikować na własnych danych, zanim się na tym oprze cały workflow.

5.Małe modele lokalne (np. Qwen 3.6 27B) mogą wystarczyć do głębokiej pracy myślowej

Na czym polega: Model z 27 miliardami parametrów, zaprojektowany głównie do kodowania, w testach autora dorównał lub przewyższył modele liczące setki miliardów czy biliony parametrów w zadaniach wymagających strategicznego myślenia.

Jak stosować: Zanim zainwestujesz w drogi, potężny sprzęt tylko po to, by uruchamiać największe modele, sprawdź, czy mniejszy model open source (uruchamiany na zwykłym MacBooku Pro lub domowym PC z 24–32 GB RAM) nie wystarczy do twoich potrzeb.

Na co uważać: To wynik jednego zestawu testów jednej osoby na konkretnym rodzaju zadań — inne zastosowania (np. kodowanie produkcyjne) mogą wymagać innych modeli.

6.Dopasuj prędkość modelu (tokeny/s) do własnego tempa pracy

Na czym polega: Zbyt wolny model frustruje i rozprasza, ale nie ma jednej „właściwej” prędkości — to kwestia indywidualna.

Jak stosować: Przetestuj, przy jakiej liczbie tokenów na sekundę czujesz się komfortowo (autor podaje orientacyjnie: ok. 30 tokenów/s wystarcza większości ludzi, on sam potrzebuje 50+). Dobierz sprzęt pod tę wartość, zamiast automatycznie kupować najdroższy dostępny model.

Na co uważać: Wyższa prędkość nie oznacza wyższej jakości myślenia — to osobny parametr komfortu pracy, a nie miernik inteligencji modelu.

7.Unikaj „loterii promptów” przy szybkich modelach

Na czym polega: Duża szybkość modelu kusi, by formułować prompty niedbale i po prostu próbować wielokrotnie, aż wyjdzie coś sensownego — jak przy automacie do gier.

Jak stosować: Niezależnie od prędkości modelu, inwestuj czas w przygotowanie precyzyjnego, przemyślanego promptu za pierwszym razem — to realnie wpływa na jakość analitycznych wniosków.

Na co uważać: Ta pokusa nasila się właśnie wtedy, gdy sprzęt jest szybki i „powtórka nic nie kosztuje” — warto świadomie się przed nią bronić.

8.Kontekst i wiedza o użytkowniku liczą się bardziej niż surowa moc modelu

Na czym polega: Sam model, nawet najpotężniejszy, jest bezużyteczny w tego typu zadaniach bez dostępu do rzeczywistej wiedzy o tobie (twojej filozofii, historii, wartości).

Jak stosować: Zamiast szukać „najmądrzejszego” modelu, zainwestuj czas w budowanie bazy wiedzy o sobie (patrz punkt 1) i regularnie ją aktualizuj — to ona decyduje o jakości analizy, nie sam model.

Na co uważać: Bogata baza wiedzy to jednocześnie duża odpowiedzialność za jej bezpieczeństwo — im więcej danych, tym większa szkoda w razie wycieku.

9.Sprawdź realne wymagania sprzętowe przed zakupem maszyny do lokalnego AI

Na czym polega: Do komfortowego uruchamiania modeli lokalnie potrzeba zwykle co najmniej 32 GB pamięci (RAM zunifikowany lub VRAM), a różne platformy (Mac Studio, RTX 5090, ASUS GX10/DGX Spark) oferują różne kompromisy między ceną a prędkością.

Jak stosować: Przed zakupem sprzętu określ, jaki model chcesz uruchamiać i jaka prędkość (tokeny/s) jest dla ciebie akceptowalna, a potem dobierz konfigurację (np. karta graficzna z VRAM da wyższą prędkość niż pamięć zunifikowana przy podobnej cenie).

Na co uważać: Modele i ich wymagania zmieniają się szybko — sprzęt kupiony dziś może za kilka miesięcy obsługiwać znacznie lepsze modele niż w chwili zakupu, więc warto brać pod uwagę tę dynamikę, a nie tylko bieżącą ofertę.

10.Traktuj kontrolę nad własną infrastrukturą jako inwestycję strategiczną, nie tylko koszt

Na czym polega: Czysto finansowy rachunek dziś częściej wskazuje na chmurę jako tańszą opcję, ale zależność od zewnętrznego dostawcy niesie ryzyko utraty dostępu lub wzrostu cen w przyszłości.

Jak stosować: Jeśli budujesz biznes lub długoterminowy projekt oparty na AI, uwzględnij w kalkulacji nie tylko obecny koszt, ale też ryzyko braku kontroli nad platformą, na której się opierasz.

Na co uważać: To nie oznacza, że lokalna infrastruktura zawsze się opłaca — bilans bywa dziś rzeczywiście niekorzystny finansowo; decyzja powinna uwzględniać własną tolerancję na ryzyko i skalę projektu, a nie ogólną deklarację ideologiczną.