I Built a Real AI Jarvis That Controls My Computer

O czym jest ten film

Autor pokazuje, jak zbudować własnego „Jarvisa” — głosowego asystenta na komputer — od zera, praktycznie bez umiejętności programowania.
Całość powstaje w edytorze Cursor za pomocą kilku długich poleceń tekstowych (promptów), a nie ręcznego pisania kodu.
Sercem asystenta jest nowy model głosowy OpenAI — GPT Realtime 2 — który rozmawia w czasie rzeczywistym i potrafi korzystać z narzędzi.
Asystent (nazwany „Ricky”) ma minimalistyczną animowaną twarz: mrugające oczy i usta zsynchronizowane z mową, z różnymi „nastrojami”.
Do jego funkcji należą: wyszukiwanie w sieci (przez API Exa), generowanie i edycja obrazów oraz rysowanie diagramów w formacie Mermaid.
Interfejs to okno towarzysza po lewej i panel „artefaktów” po prawej, w którym pojawiają się wyniki, wykresy i obrazy.
Asystent ma „tryb sterowania komputerem” — potrafi otwierać przeglądarkę i inne aplikacje oraz wpisywać tekst.
Autor iteracyjnie poprawia projekt kolejnymi promptami: naprawia błędy diagramów, dodaje klucz API do wyszukiwania, zmienia wygląd i zachowanie okna.
Powstaje praktyczny przepływ pracy do tworzenia miniaturek (thumbnaili) na podstawie własnego zdjęcia, z edycją głosową i generowaniem wersji w siatce.
Cały projekt trafia na GitHub, więc widzowie mogą go sklonować lub odtworzyć na podstawie promptu z opisu filmu.

Redakcyjne tłumaczenie

Demonstracja wstępna — rozmowa z asystentem

— Cześć, Jarvis. Jak leci?

— Hej. U mnie wszystko idzie gładko.

— Jarvis, otwórz proszę menu.

— Jasne, już klikam.

— A możesz zmienić tło na różowe?

— Dobrze, zmieniam tło.

— Jarvis, pokaż mi nastroje, w jakich możesz być.

— Świetnie, otwieramy opcje nastrojów.

— Jarvis, przełącz się na zły nastrój.

— Dobrze, przełączam się teraz na zły nastrój.

— Dziękuję. Zamknij menu.

— Zrobione, zamykam menu i chowam je.

— Jarvis, wejdź proszę w tryb sterowania komputerem.

— W porządku, przełączam się teraz w tryb sterowania komputerem.

— To jest naprawdę fajne. Otwórz przeglądarkę.

— Dobrze, otwieram twoją domyślną przeglądarkę. Jest otwarta i gotowa na kolejny krok.

— A teraz otwórz Codex.

— Dobrze, uruchamiam dla ciebie Codex.

(Informacja dodatkowa: Codex to narzędzie programistyczne OpenAI, uruchamiane w tym przypadku jako aplikacja na komputerze.)

Co właściwie zobaczyliśmy

To jest mój mały Jarvis, którego stworzyłem w trzech promptach za pomocą Cursora. Ten asystent jest podłączony do GPT Realtime 2, czyli nowego modelu głosowego OpenAI. W tym filmie zbudujemy własnego Jarvisa — pełnoprawnego agenta głosowego, który potrafi korzystać z twoich narzędzi i w pełni sterować komputerem. Narzędziem, którego użyjemy, jest Cursor.

Możesz się zastanawiać, ile trzeba umieć programować. Odpowiedź brzmi: zero na dziesięć. Możesz być kompletnym nowicjuszem w kodowaniu i i tak zbudujesz agenta głosowego do użytku osobistego albo dla swojej firmy. Naprawdę magiczna technologia stojąca za Jarvisem to zupełnie nowy GPT Realtime 2 od OpenAI. Rozmowa z nim jest tak realistyczna, że agent po prostu mówi do ciebie w czasie rzeczywistym. Za chwilę to stworzymy.

Przygotowanie: instalacja Cursora i nowy projekt

Na początek pobierz Cursor, jeśli jeszcze tego nie zrobiłeś — znajdziesz go na cursor.com, można go bez trudu zainstalować na macOS. Potem po prostu się logujesz.

Przy pierwszym uruchomieniu Cursor może wyglądać inaczej niż u mnie. W prawym górnym rogu będzie napis „open agents window” — z tego widoku będę korzystać. To po prostu inna odsłona tej samej technologii.

(Informacja dodatkowa: „agents window” to tryb Cursora, w którym opisujesz zadanie w języku naturalnym, a edytor sam pisze i modyfikuje kod projektu.)

Zaczynamy od utworzenia nowego projektu. Przechodzę do zakładki z obszarami roboczymi (workspaces). Przy pierwszym użyciu Cursora nic tu nie zobaczysz. Najeżdżam kursorem i klikam „open workspace”, potem „open folder”. Wchodzę na razie na pulpit i tworzę folder „Riley Custom Jarvis”, po czym klikam „open”. W tym miejscu na komputerze tworzę teraz aplikację.

Klucz API OpenAI

Czas zaplanować pierwszy prompt. Damy Cursorowi naprawdę długie polecenie, a on po prostu zbuduje nam Jarvisa. Do jego stworzenia możemy użyć dowolnego modelu AI. Ważne jest natomiast, że musimy przekazać klucz API OpenAI.

Aby go znaleźć, wejdź na openai.com/api-keys. Tworzymy nowy klucz — i pamiętaj, żeby trzymać go absolutnie bezpiecznie. Tworzę nowy tajny klucz, nazywam go „Jarvis key” w projekcie domyślnym i klikam „create secret key”. Skopiowałem klucz do schowka. Nie martw się — usunę go zaraz po nagraniu tego filmu, ale ty koniecznie zadbaj, żeby twój pozostał w pełni prywatny.

(Informacja dodatkowa: klucz API to prywatne hasło rozliczane na twoim koncie — jeśli wycieknie, ktoś może korzystać z płatnych usług na twój koszt. Nigdy nie publikuj go w kodzie ani w nagraniu.)

Pierwszy prompt — budowa Jarvisa

Wklejam swój prompt i uruchamiam go razem z kluczem API. Samo polecenie jest stosunkowo proste. Brzmi mniej więcej tak:

Zbuduj towarzysza AI na komputer w stylu Jarvisa. Nazwiemy go tym razem inaczej — „Ricky” — i nadamy mu zupełnie inny klimat niż temu, którego pokazałem wcześniej. Celem jest stworzenie desktopowego towarzysza AI, z którym mogę rozmawiać naturalnie, podczas gdy on wykonuje w tle pożyteczną pracę. Ma sprawiać wrażenie osobistego Jarvisa: konwersacyjny, szybki, wizualny i zdolny do korzystania z narzędzi. Przeczytaj dokumentację GPT Realtime 2. To będzie aplikacja desktopowa, używamy GPT Realtime 2 do prowadzenia rozmowy głosowej na żywo — z możliwością przerywania, dopytywania i tak dalej.

Nadaj Ricky’emu minimalistyczną, animowaną twarz — wysokiej jakości animacje, ale tylko oczy i usta, nic więcej: naturalne mruganie, ekspresyjne nastroje i usta zsynchronizowane z mową. Interfejs zachowamy prosty: małe okno towarzysza plus panel artefaktów na wszystko, co wizualne i uporządkowane.

(Informacja dodatkowa: „artefakty” to tu osobny panel, w którym asystent wyświetla efekty pracy — tabele, wykresy, obrazy — zamiast wypisywać je w oknie czatu.)

Cały ten prompt wkleję do opisu filmu, gdybyście chcieli go wypróbować. GPT Realtime 2 to model głosowy, który potrafi korzystać z narzędzi — wystarczy poprosić Cursor, żeby stworzył i dodał narzędzia do agenta, a on to wszystko zrobi. Jednym z narzędzi będzie wyszukiwanie w sieci; użyjemy do tego Exa. Będziemy też generować obrazy — ten agent głosowy będzie umiał tworzyć i edytować obrazy z pomocą modelu GPT. Chcę też, żeby potrafił rysować diagramy Mermaid — to język, który renderuje wysokiej jakości wykresy.

(Informacja dodatkowa: Mermaid to prosty tekstowy zapis, z którego automatycznie powstają schematy blokowe i diagramy przepływu.)

Kopiuję cały prompt, przechodzę do Cursora, wybieram model GPT 5.5 High, wklejam polecenie i uruchamiam. Cursor prawdopodobnie będzie budował tę aplikację jakieś 10–15 minut. Idę zjeść kolację i wrócę, gdy skończy.

Pierwsza wersja Ricky’ego

Wróciłem — jest gotowe. Cursor stworzył aplikację desktopową w Electronie i mam ją otwartą na komputerze. To jest Ricky. Mruga — chwileczkę, poczekajcie… o, jest. Spróbujmy.

— Cześć, Ricky, jak się masz? Jesteś tam?

— Tak, jestem. Słyszę cię wyraźnie. Czego potrzebujesz?

— Wow, super. Możesz wypisać, co potrafisz?

— Zróbmy przegląd. Mogę wyszukiwać w sieci, pokazywać wyniki, notatki, tabele, wykresy i obrazy w panelu artefaktów oraz prowadzić proste lokalne notatki i zapiski.

— Możesz to pokazać jako diagram Mermaid w panelu artefaktów?

— Naszkicuję możliwości jako prosty diagram Mermaid. Gotowe. — Diagram nie wyrenderował się poprawnie, pojawił się błąd składni w linii 8.

— Uproszczę etykiety węzłów i wygeneruję diagram ponownie, tak żeby się poprawnie odczytał.

Dobrze, potrafi więc tworzyć małe diagramy. Świetnie. A możesz wyszukać coś w internecie?

— Tak, podaj konkretny temat lub pytanie.

— Wyszukaj najlepsze miejsca do jedzenia w Nowym Jorku.

— Ściągnę kilka wiarygodnych zestawień… Nie mogę teraz skorzystać z wyszukiwania w sieci, ponieważ…

No tak, zorientowałem się, że zapomniałem podać klucz API do Exa. Jest tu dużo rzeczy, które chcę poprawić.

Wtrącenie — oferta dla firm

Od kilku tygodni pomagamy firmom wdrażać u siebie użyteczne agenty — takie, którymi można dzielić się z całym zespołem. Nasz zespół potrafi wejść, przeanalizować wszystkie wasze procesy i znaleźć miejsca, w których agenty oszczędzą czas: w reklamach, researchu, tworzeniu treści, raportowaniu, dokumentacji wewnętrznej — cokolwiek to jest. Wskazujemy, gdzie agenty pomogą firmie, a potem wspólnie budujemy współdzielone agenty, z których może korzystać każdy w organizacji. Będą miały właściwy kontekst, właściwe narzędzia i, co najważniejsze, właściwe uprawnienia. Możemy je umieścić w Slacku, a nawet w iMessage czy gdziekolwiek indziej się komunikujecie. Jeśli chcecie pomocy w staniu się firmą „agent-native”, link jest w opisie.

Druga tura poprawek

Rozłączam się z Rickym i wprowadzam zmiany w Cursorze. Wypiszę teraz kilka rzeczy, które chcę zmienić.

Po pierwsze: napraw diagramy Mermaid — był błąd składni i chcę mieć pewność, że to się już nigdy nie powtórzy. Po drugie: dam ci klucz API do Exa i chcę, żeby wyszukiwanie w sieci działało za każdym razem — wkleję klucz na dole tego promptu. Notatki, jak zauważyłem, zapisują się lokalnie, co jest świetne.

I ogólnie chcę przebudowy wyglądu. Chcę mniej „komponentów” — jest zbyt wiele zaokrąglonych rogów, po prostu brzydko to wygląda. Ma być prostszy interfejs. Te przyciski — połącz, głos, wyświetlanie, sterowanie komputerem, artefakty — mogą być bardzo prostymi guzikami na dole lewego panelu. Zrób tak, żeby twarz zajmowała lewą połowę ekranu, mniej więcej pół na pół, a artefakty były po prawej. Niech ładna linia oddziela lewą stronę od prawej.

(Informacja dodatkowa: Exa to API do wyszukiwania w sieci, przekazywane agentowi tak samo jak klucz do modelu głosowego — zdaniem autora daje agentom szybkie i wysokiej jakości wyszukiwanie.)

To ogromny prompt, robimy tu jakieś dziesięć zmian naraz. Tuż przed wysłaniem podaję swój klucz API Exa. Nazywam projekt „Ricky”, tworzę klucz, kopiuję go, wklejam i uruchamiam prompt. Czekamy, aż Cursor skończy.

Sprawdzian po poprawkach

Gotowe. Sprawdźmy zaktualizowanego Ricky’ego.

— Ricky, stwórz mi proszę diagram Mermaid wyjaśniający, jak działa sztuczna inteligencja.

— Dobrze, naszkicuję prosty przepływ systemu AI i pokażę go jako diagram Mermaid.

— A możesz go dopracować, żeby był bardziej szczegółowy i miał podpisy w formie pełnych, krótkich zdań?

— Zaktualizuję wykres o wyraźniejsze kroki i krótkie zdaniowe podpisy. Gotowe — teraz czyta się to bardziej jak opis procesu.

— Bardzo fajnie. Zrób mi szybkie wyszukiwanie w sieci: powiedz, co słychać w mistrzostwach świata, i wytłumacz mi to prosto, bo za bardzo nie rozumiem piłki nożnej.

— Sprawdzę najnowsze wieści z mistrzostw i wyjaśnię je prostym językiem. W skrócie: turniej jest w fazie pucharowej.

— Zaczekaj chwilę, nie odpowiadaj. Muszę cię zmienić.

Wracam do Cursora w sprawie wyszukiwania. Chcę, żeby wyniki renderowały się jako czysty, ładny Markdown — żeby tekst „wypływał” strumieniowo i wyglądał naprawdę fajnie i futurystycznie. Teraz wyświetla po prostu masę tabel. Za każdym razem, gdy proszę o wyszukiwanie, chcę, żeby AI wyrenderowało to jako tekst i żeby dobrze wyglądało.

I jeszcze jedno: chcę móc poprosić „pokaż mi menu”, które po prostu wypisze wszystko, co potrafię zrobić — żeby łatwiej było zapanować nad listą funkcji. Włóż też więcej wysiłku w to, żeby usta ruszały się bardziej realistycznie w zależności od tego, jak wychodzi dźwięk, i podnieś ogólną jakość animacji.

Gotowe. Spróbujmy.

— Hej, pokaż mi menu. Jesteś tam? Pokaż menu.

— Menu jest w panelu artefaktów. Chcesz, żebym cię przeprowadził przez szybki start, na przykład wyszukiwanie w sieci albo notatki?

— Właściwie to wyszukaj w internecie najnowsze wieści o mistrzostwach świata.

— Jasne, ściągnę szybki, aktualny przegląd z sieci i podsumuję, co nowego.

— Świetnie. Wygeneruj zdjęcie lisa.

— Dobry pomysł. Stworzę ten obraz i umieszczę go w panelu artefaktów.

— Ooo, ładna robota. Świetnie się spisujesz, dzięki.

— Do usług, zawsze chętnie pomogę.

Tryb sterowania komputerem i kwestia zgód

— Ricky, wejdź w tryb sterowania komputerem.

— Jasne, przełączam cię w tryb sterowania komputerem, żebym mógł obsługiwać pulpit. Jesteś w trybie sterowania.

— Otwórz Codex.

— Robi się, otwieram Codex. — Działa. Brawo, Ricky.

— Miło słyszeć. Wszystko gotowe, czekam na kolejny ruch. Co chcesz zrobić w Codeksie?

— Wpisz do Codeksa polecenie, żeby poprawić scenariusz intra. Po prostu wpisz to w pole.

— Mogę to zrobić, ale potrzebuję twojego wyraźnego potwierdzenia, zanim zacznę wpisywać w aplikacji.

— Tak, daję ci wyraźne potwierdzenie.

— Dobrze, wpisuję to teraz do Codeksa.

— Zatwierdź.

— Zaraz to zrobię. Jeśli przez „zatwierdź” rozumiesz naciśnięcie Enter, aby wysłać ten tekst, potrzebuję twojej wyraźnej zgody.

— Zróbmy to. Dlaczego w ogóle potrzebujesz mojej zgody? Dawaj.

— Dobrze, wysyłam. Gotowe, wysłane.

— Nie wysłało się.

— Faktycznie, nadal nie.

(Informacja dodatkowa: te wielokrotne prośby o zgodę to celowe zabezpieczenie „computer use” — asystent domyślnie prosi o potwierdzenie, zanim wpisze lub wyśle tekst w cudzej aplikacji.)

Gdy wchodzę w tryb sterowania i chcę, żeby coś wpisał, prosi mnie o zgodę za każdym razem. Wracam do Cursora: czy da się wyłączyć ten tryb obowiązkowego potwierdzania? Jeśli tak — zrób to. Znalazłem dokładny blokujący fragment: odrzucanie wpisywania tekstu jako „wrażliwego”. Zobaczmy, czy to zadziała.

Chcę też, żeby po wejściu w tryb sterowania komputerem okno stało się naprawdę małe i przeniosło się w lewy dolny róg — ma pokazywać tylko małą postać, tylko to kółko na dole, z małym przyciskiem w prawym górnym rogu, który wraca do normalnego trybu. A tło całej aplikacji ma być półprzezroczyste, bo w trybie komputera chcę widzieć, co mam na ekranie.

Spróbujmy.

— Hej, jak się masz? Wejdź w tryb sterowania komputerem.

— Robi się, przełączam tryb, żeby móc bezpośrednio obsługiwać pulpit.

— O, popatrz na niego. Otwórz Codex.

— Otwieram teraz Codex z pulpitu.

— Wpisz tu prompt: „czy możesz to trochę skrócić” — i wyślij za mnie.

— Jasne, wpisuję i wysyłam. Gotowe.

Świetna robota. To jest niesamowite.

Generator miniaturek — praktyczny przepływ pracy

Właśnie wpadłem na dobry pomysł. Chcę, żebyś potrafił generować miniaturki ze mną, używając modelu obrazów GPT, i żebym mógł je potem edytować. Dam ci swoje zdjęcie, które ma służyć jako referencja. Sprawdź dokumentację najnowszego modelu obrazów.

Gdy zechcę stworzyć obraz ze sobą, poproszę o miniaturkę, a potem będę chciał ją edytować głosem — na przykład „zmień to tak, żeby robiło to a to”. Chcę też generować wiele wersji równolegle. Gdy powiem „wygeneruj obraz”, twórz je w siatce — myślę o układzie trzy w rzędzie — i zawsze umieszczaj nowy obraz w pozycji pierwszej, w lewym górnym rogu. Wszystkie mają być ponumerowane, żebym mógł powiedzieć „edytuj numer dwa i zrób z nim to a to”, a najnowsza wersja zawsze pojawi się w pozycji pierwszej. Dzięki temu mam ciągły proces edytowania miniaturek. Będzie super, jeśli to dobrze wyjdzie.

(Informacja dodatkowa: miniaturka — po angielsku „thumbnail” — to grafika, którą twórcy YouTube wyświetlają jako okładkę filmu, kluczowa dla klikalności.)

Właśnie wgrałem swoje zdjęcie, bo model będzie go potrzebował. Zobaczmy, czy zadziała.

— Cześć. Wygeneruj miniaturkę ze mną stojącym przed drzewem. Ujęcie kinowe.

— Generuję nową miniaturkę na tablicy, dokładnie z twoją sceną.

— Wygeneruj obraz, na którym trzymam iPhone’a ekranem do kamery, tak żeby był widoczny. Na ekranie ma być fajna aplikacja wyglądająca jak aparat, z fajną żółtą ramką dookoła.

— Robię czystą nową miniaturkę 16:9 z twoim dokładnym ustawieniem iPhone’a.

— Wygeneruj obraz, na którym trzymam MacBooka, ale ekran jest widoczny i pokazuje małą niebieską postać ze słodkimi białymi oczami.

— Generuję teraz numer 14… i tworzę nową miniaturkę z widocznym ekranem MacBooka i niebieską postacią.

— Świetnie. Pokaż zdjęcie numer 13.

— Jasne, otwieram numer 13 na pełnym ekranie.

— Dodaj mu niebieskie okulary przeciwsłoneczne.

— Robi się, wprowadzam szybką edycję z niebieskimi okularami.

— Pokaż zdjęcie 15. Dodaj tu tekst „cute character” (słodka postać).

— Dobrze, dodaję dokładnie ten tekst do wybranej miniaturki.

— Pokaż numer 14. Zmień tło na las zamiast tego przejścia z niebieskiego do pomarańczowego.

— Zaktualizuję tło na leśne, zachowując resztę bez zmian.

— Pokaż 16. Wygeneruj kolejną wersję z brązowymi okularami.

— Tworzę nową wersję z brązowymi okularami na podstawie wybranej.

Kolejne wyszukiwania i diagramy

— Świetnie. Zróbmy jeszcze szybkie wyszukiwanie w sieci.

— Otwieram menu. Podaj mi zapytanie. Menu jest na górze — powiedz, czego mam szukać.

— Wyszukaj i powiedz mi najnowsze plotki o Nano Banana. Właśnie widziałem, że Logan Kilpatrick o tym tweetnął.

(Informacja dodatkowa: Logan Kilpatrick to znana w branży AI postać związana z Google; „Nano Banana” to potoczna nazwa modelu do generowania obrazów.)

— Zbiorę najnowsze wiarygodne informacje o tych plotkach i podsumuję to, co faktycznie potwierdzone. W skrócie: to głównie spekulacje.

— Pokaż mi diagram Mermaid tego, jak działa nasze narzędzie do miniaturek i generowania obrazów.

— Naszkicuję czytelny przepływ kroków dla miniaturek i obrazów w formie prostego diagramu.

— Bardzo fajne, dziękuję. Wejdźmy w tryb komputera.

— Przełączam się w tryb sterowania komputerem.

Podsumowanie autora

I tak stworzyliśmy tego Jarvisa — za jednym posiedzeniem, w Cursorze, z GPT Realtime. Ma też wbudowany model obrazów GPT i wystarczy poprosić, żeby coś stworzył. To właśnie próbuję wam pokazać w tym filmie: możesz po prostu rozmawiać z AI i sprawić, żeby zbudowało ci własnego, spersonalizowanego Jarvisa — możesz nawet stworzyć użyteczny przepływ pracy. Naprawdę spodobał mi się ten generator miniaturek. Przydałoby mu się jeszcze trochę dopracowania, ale tworzenie tego małego Jarvisa to świetna zabawa. Fajnie się go używa i potrafi sterować moim komputerem oraz robić mnóstwo rzeczy.

— Jarvis, wyjdź z trybu komputera. Nie, właściwie tego nie rób.

— Rozumiem, zostaję w trybie komputera.

— Nie, wyjdź z trybu komputera.

— Dobrze, wychodzę z trybu komputera. Jesteś z powrotem w trybie wyświetlania.

Cały ten projekt wrzucę na GitHub, więc będziecie mogli wziąć link z opisu, podać go Cursorowi i powiedzieć „sklonuj to” — i stworzycie dokładnie takiego samego Jarvisa. Albo weźmiecie prompt z opisu i zbudujecie własną wersję. Dajcie znać, co stworzycie — naprawdę chcę zobaczyć, jakich Jarvisów ludzie robią. Jednym z pomysłów, które chętnie bym zobaczył, jest podłączenie takiego asystenta do poczty albo do innych narzędzi. To byłoby świetne.

A tak przy okazji — jestem w Nowym Jorku z całym zespołem. Zasadniczo cały czas pomagamy firmom wdrażać agentów AI. Wejdziemy na wasz Slack i dodamy tam agentów. Możecie uruchomić Codex od OpenAI, Claude’a i przełączać się między różnymi modelami, w tym otwartoźródłowymi, jeśli chcecie. Przeanalizujemy wszystkie procesy w firmie i pomożemy stworzyć agentów. Najbardziej przydatne, jakie teraz budujemy, to agenty marketingowe — zdolne zebrać wysokiej jakości reklamy i treści z każdej platformy, a potem stworzyć wersje dla waszej firmy oraz zarządzać kampaniami. Claude Code, Cursor i Codex to pojedyncze narzędzia — my chcemy wejść i pomóc wam zbudować agentów dla całego zespołu, czyli tworzyć „umiejętności” (skills), z których może korzystać każdy na firmowym Slacku. Jeśli was to interesuje, link jest w opisie. Dzięki wielkie za oglądanie.

10 najważniejszych takeaways — z kontekstem zastosowania

1.Aplikację można zbudować bez pisania kodu — wystarczą precyzyjne polecenia

Na czym polega: Autor tworzy działającą aplikację desktopową, opisując ją w języku naturalnym w Cursorze, a edytor sam generuje kod. Deklaruje „zero na dziesięć” wymaganego doświadczenia programistycznego.

Jak stosować: Zamiast uczyć się składni, ćwicz formułowanie długich, konkretnych promptów: nazwa produktu, cel, wygląd, funkcje, użyte narzędzia i klucze API. Rozbij projekt na iteracje i poprawiaj kolejnymi poleceniami.

Na co uważać: „Bez kodowania” nie znaczy „bez zrozumienia”. Gdy coś się psuje (błąd Mermaid, niedziałające wyszukiwanie), i tak trzeba umieć zdiagnozować problem i wiedzieć, czego brakuje — np. klucza API. Bez tej świadomości utkniesz.

2.Sercem asystenta jest model głosowy działający w czasie rzeczywistym

Na czym polega: GPT Realtime 2 pozwala prowadzić płynną rozmowę głosową z przerywaniem i dopytywaniem, a przy tym samodzielnie uruchamia narzędzia (wyszukiwanie, obrazy, diagramy).

Jak stosować: Jeśli budujesz asystenta, projektuj go wokół dialogu głosowego i „narzędzi” (tool calling), a nie tylko czatu tekstowego. Dodawanie funkcji sprowadza się do proszenia edytora o kolejne narzędzia dla agenta.

Na co uważać: Modele głosowe rozliczane są za użycie przez API. Realistyczna rozmowa kusi do długiego gadania, co generuje koszty — warto od początku obserwować zużycie.

3.Klucze API to koszt i ryzyko — traktuj je jak hasła

Na czym polega: Do działania potrzebne są klucze OpenAI (model i obrazy) oraz Exa (wyszukiwanie). Autor kilkukrotnie podkreśla, że klucz trzyma w tajemnicy i usunie go po nagraniu.

Jak stosować: Generuj osobne klucze dla każdego projektu, nadawaj im czytelne nazwy, przechowuj poza kodem i unieważniaj, gdy nie są już potrzebne. Nigdy nie pokazuj klucza na ekranie w nagraniu ani na zrzucie.

Na co uważać: Wyciek klucza oznacza obciążenie twojego konta cudzymi zapytaniami. Jeśli kiedykolwiek pojawił się publicznie — natychmiast go usuń i wygeneruj nowy.

4.Panel „artefaktów” oddziela rozmowę od wyników pracy

Na czym polega: Interfejs dzieli się na twarz/rozmowę po lewej i panel artefaktów po prawej, gdzie lądują tabele, diagramy, obrazy i notatki.

Jak stosować: Projektując narzędzie AI, rozdziel warstwę konwersacji od warstwy wyników — użytkownik szybciej znajduje efekty i mniej się gubi. Autor wprost prosił o „ładną linię” dzielącą oba obszary.

Na co uważać: Domyślny wygląd generowany przez AI bywa przeładowany (autor narzekał na „za dużo zaokrąglonych rogów”). Trzeba świadomie prosić o uproszczenie, bo model sam z siebie tego nie zrobi.

5.Buduj iteracyjnie — jeden duży prompt to dopiero początek

Na czym polega: Pierwsza wersja miała błędy (diagramy, brak wyszukiwania). Autor poprawiał ją kolejnymi, wielopunktowymi promptami („robimy tu jakieś dziesięć zmian naraz”).

Jak stosować: Testuj po każdej turze, zbieraj listę usterek i życzeń, a potem wysyłaj je zbiorczo jako uporządkowane, ponumerowane polecenie. Naprawy i zmiany wyglądu można łączyć w jednym przebiegu.

Na co uważać: Zbyt wiele zmian naraz utrudnia ustalenie, co zepsuło działającą funkcję. Gdy coś działało, a przestało, cofnij się do mniejszych, izolowanych poprawek.

6.Tryb sterowania komputerem realnie otwiera aplikacje i wpisuje tekst

Na czym polega: Asystent w „computer use mode” potrafił otworzyć przeglądarkę i Codex oraz wpisać do niego prompt — czyli działał na prawdziwym pulpicie.

Jak stosować: To potężny sposób automatyzacji powtarzalnych czynności na komputerze. Sprawdza się np. do wpisywania i wysyłania poleceń w narzędziach, których używasz na co dzień.

Na co uważać: Agent operujący na twoim komputerze może kliknąć lub wysłać coś niezamierzonego. Ograniczaj go do sprawdzonych scenariuszy i miej kontrolę nad tym, do czego ma dostęp.

7.Prośby o potwierdzenie to zabezpieczenie, nie usterka — wyłączaj świadomie

Na czym polega: Asystent wielokrotnie prosił o „wyraźne potwierdzenie” przed wpisaniem i wysłaniem tekstu. Autor uznał to za uciążliwe i poprosił o usunięcie blokady.

Jak stosować: Jeśli tarcie faktycznie przeszkadza w twoim przepływie, możesz zmniejszyć liczbę potwierdzeń — ale rób to punktowo, dla znanych, bezpiecznych działań.

Na co uważać: Wyłączenie potwierdzeń oznacza, że agent może wysłać lub zmienić coś bez twojej wiedzy. Przy dostępie do poczty, płatności czy publikacji treści zostaw te zabezpieczenia włączone.

8.Dedykowany przepływ do miniaturek pokazuje siłę „workflow”, a nie pojedynczych funkcji

Na czym polega: Autor zbudował ciągły proces: generowanie wersji obrazu w numerowanej siatce, zawsze z najnowszą w pozycji pierwszej, z edycją głosową („edytuj numer 14, zmień tło na las”).

Jak stosować: Największą wartość daje projektowanie całego przepływu pracy pod konkretne, powtarzalne zadanie — a nie luźny zbiór funkcji. Zdefiniuj z góry logikę: numerację, kolejność, punkt referencyjny (twoje zdjęcie).

Na co uważać: Autor przyznaje, że generator „przydałby się jeszcze dopracować”. Wyniki generatywne bywają niespójne między wersjami — traktuj je jako punkt wyjścia do edycji, nie gotowy produkt.

9.Do wyszukiwania w sieci potrzebne jest osobne narzędzie i klucz

Na czym polega: Model językowy sam nie przeszukuje internetu — funkcję wyszukiwania zapewnia API Exa, które trzeba osobno podłączyć kluczem. Dopiero wtedy „powiedz mi najnowsze wieści” zadziałało wiarygodnie.

Jak stosować: Jeśli twój asystent ma odpowiadać na aktualne pytania, dołóż narzędzie wyszukiwania i zadbaj o czytelną prezentację wyników (autor prosił o strumieniowy, ładny Markdown zamiast surowych tabel).

Na co uważać: Bez podłączonego wyszukiwania model może „udawać”, że sięga do sieci, albo zwracać nieaktualne treści. Zawsze weryfikuj, czy odpowiedzi faktycznie pochodzą z narzędzia, a nie z pamięci modelu.

10.Projekt można w pełni odtworzyć — z GitHuba lub z samego promptu

Na czym polega: Autor zapowiada wrzucenie projektu na GitHub i udostępnienie promptu w opisie, tak że widzowie mogą go sklonować („powiedz Cursorowi: sklonuj to”) albo zbudować własną wersję.

Jak stosować: Najszybsza droga do nauki to zacząć od cudzego działającego projektu i modyfikować go pod siebie — np. podłączyć własną pocztę lub inne narzędzia, co autor sam wskazuje jako ciekawy kierunek.

Na co uważać: Klonując cudzy projekt, podstawiasz własne klucze API — koszty i uprawnienia stają się twoje. Przejrzyj, do czego kod ma dostęp, zanim uruchomisz go z trybem sterowania komputerem.