Beyond AI
Rabbit R1: Ambitne marzenia, smutna rzeczywistość
Dzień dobry! Właśnie opublikowaliśmy najnowszy odcinek naszego podcastu! Może obejrzeć go w wersji wideo:
Możesz też przesłuchać go np. na Spotify – klik.
Poniżej przeczytasz w wersji tekstowej. Zapraszamy!
—
Ziemowit Buchalski: Cześć, witamy na kanale Beyond! Jak zwykle porozmawiamy o tym, co ciekawego wydarzyło się ostatnio w obszarze sztucznej inteligencji.
Jan Twardowski: Dzień dobry! Co się wydarzyło? Na poprzednim przeglądzie newsów mówiliście z Michałem o tym, że ma podobno wyjść nowy model od OpenAI. No i mieliście rację! Wyszedł model, który nazywa się o1. Jest w zasadzie dostępny w kilku wersjach, dlatego że mamy wersję o1-Preview, do której dostęp jest. Ona jest jednak wersją trochę okrojoną w stosunku do o1, która nie została jeszcze opublikowana, ona ma te pełne możliwości.
Jest też wersja o1-mini, która jest z kolei wersją uboższą, mającą mniejsze możliwości. Natomiast co ten model potrafi? To jest model, który rzeczywiście już wiele osób testowało i my również go testowaliśmy — radzi sobie znacząco lepiej we wszystkich zadaniach, które wymagają pewnego procesu myślowego.
Ziemek: No właśnie, jakie są założenia? Dlaczego to jest taki przełom? Dlaczego to w ogóle jest coś takiego interesującego i rzeczywiście być może nowego?
Janek: Czy to jest przełom? Nie wiem. Trudno też dokładnie stwierdzić, co OpenAI zmieniło w swoim nowym modelu. Wiele wskazuje na to, że to, co obserwujemy, przypomina coś, co nazywane jest "Chain of Thought" – to sposób działania, w którym model stara się ułożyć pewien łańcuch myśli, aby wykonać zadanie.
Kiedy zadajemy pytanie w standardowym czacie, natychmiast dostajemy odpowiedź. W nowej wersji, dostępnej w podglądzie "o1 Preview", najpierw pojawia się napis "Thinking". Model faktycznie zdaje się myśleć, próbując ułożyć plan działania, aby rozwiązać problem. Dzięki temu radzi sobie znacząco lepiej w zadaniach takich jak matematyka, fizyka czy programowanie. W przypadku zadań kreatywnych, jak pisanie czy rozwiązywanie benchmarków, wyniki są porównywalne z modelem GPT-4.0, a czasem nawet nieco słabsze.
Jednakże w zadaniach matematycznych wszyscy zauważyli różnicę – model wypada znacznie lepiej. Nawet profesor Dragan stwierdził, że wreszcie doczekaliśmy się sztucznej inteligencji, która rzeczywiście potrafi coś więcej. Porównał to do koncepcji tzw. "System 1 Thinking", czyli myślenia intuicyjnego, które działa na autopilocie, w przeciwieństwie do "System 2 Thinking", które wymaga planowania i świadomego przetwarzania informacji. Właśnie w ten sposób próbuje działać ten model.
Model radzi sobie teraz z zadaniami, które wcześniej były dla niego problematyczne, jak np. te, które mogą sprawiać trudność studentom matematyki. Nie jest tak szybki jak poprzednia wersja – model GPT-4.0 generował odpowiedzi w ciągu dwóch sekund, natomiast o1 Preview potrzebuje około 30 sekund. To opóźnienie wynika z większych zasobów obliczeniowych, które są potrzebne do pracy nad zadaniami, co sprawia, że korzystanie z modelu przez API jest droższe.
W wersji GPT Plus użytkownicy mają także ograniczenia – mogą zadać tylko 30 pytań tygodniowo, co powoduje, że szybko można osiągnąć limit i trzeba czekać 7 dni na kolejną możliwość skorzystania z modelu. Wersja Preview pokazuje jednak ogromny potencjał, choć pełne możliwości o1 jeszcze nie są dostępne.
Ziemek: Testowałem model na dwóch zadaniach. Pierwsze z nich pochodziło z rozszerzonej matematyki dla drugiej klasy liceum – zadanie z funkcji kwadratowej. Model poradził sobie bardzo dobrze, poprawnie przeprowadzając dowód. Co więcej, poprosiłem go, aby nie korzystał z twierdzenia Viete’a, a on to zrozumiał i rozwiązał problem inną, równie poprawną metodą. To było imponujące, ponieważ radził sobie lepiej niż większość uczniów, którzy nie są w klasach z rozszerzoną matematyką.
Drugie zadanie było bardziej nietypowe – zagadka o walizce z pieniędzmi, którą kilka osób przekazywało sobie nawzajem. Model przedstawił kilkanaście logicznych kroków, analizując, jak zmieniała się suma pieniędzy. Co zaskakujące, w pewnym momencie postanowił sprawdzić alternatywny scenariusz: "A co by się stało, gdyby osoby te pojechały rowerami?". Oczywiście nie miało to związku z oryginalnym zadaniem, ale była to próba kreatywnego sprawdzenia innej ścieżki. To przypominało burzę mózgów, którą model przeprowadził sam ze sobą, co wcześniej nazwalibyśmy "halucynacją". Jednak tutaj było to elementem kreatywnego rozwiązywania problemów, a finalna odpowiedź była poprawna.
Mimo tych sukcesów, udało mi się znaleźć zadanie, z którym nawet o1-Preview sobie nie poradził. Chodziło o wypisanie wszystkich liczb od 1 do 100 w kolejności alfabetycznej po polsku. Żaden model na razie sobie z tym nie radzi, więc czekamy na pełną wersję o1. Warto zbierać takie zadania jako testy dla przyszłych modeli.
Janek: Ciekawą funkcją nowego modelu jest możliwość podglądu fazy planowania – widzimy, jak model rozpisuje kroki, które zamierza podjąć. To sugeruje, że pod maską kryje się nowa architektura lub inne dane treningowe. Wygląda na to, że OpenAI połączyło Chain of Thought z wcześniejszym etapem planowania. Podobne efekty można było osiągnąć w starszych modelach za pomocą bardziej skomplikowanych zapytań, ale teraz wystarczy wpisać pytanie, poczekać chwilę dłużej, i wynik jest znacznie lepszy.
Ziemek: No tak, ale rozumiem, że OpenAI to nie jedyny podmiot, który wypuścił coś nowego. Może na naszym podwórku też działo się coś w Polsce ciekawego?
Janek: Tak, masz rację – na polskim rynku również pojawiają się ciekawe inicjatywy związane z modelami AI. Warto wspomnieć o polskim modelu Bielik, który niedawno doczekał się drugiej wersji.
Nowa wersja Bielika jest istotnym krokiem naprzód w porównaniu do poprzedniej. Po pierwsze, model jest znacznie większy – ma więcej parametrów, co oznacza, że ma większą zdolność do przetwarzania informacji i rozumienia języka. Dodatkowo został przeszkolony na dużo większym zbiorze danych, co również jest niezbędne przy większych modelach. Zmieniono także rozmiar okna kontekstu, co ma wpływ na to, jak wiele danych model może analizować jednocześnie.
Jedną z ważnych nowości jest to, że Bielik 2 został udostępniony w bardziej dostępnej formie – nie trzeba już uruchamiać go lokalnie. Wcześniej model można było testować tylko w formie demo na platformie Hugging Face, a teraz posiada swoją własną stronę internetową, na której można go swobodnie testować. To duże ułatwienie dla użytkowników, którzy chcą sprawdzić możliwości modelu, nie mając zaawansowanej infrastruktury technicznej. Link do tej strony można znaleźć poniżej tego artykułu lub materiału.
Model radzi sobie całkiem dobrze, szczególnie w zadaniach związanych z analizą tekstu, takich jak klasyfikacja czy ocena treści pod kątem występowania określonych elementów. Interfejs, który udostępnia Bielik, zawiera funkcję o nazwie Newsroom, która jest czymś nowym w kontekście działania tego modelu. To narzędzie, które w dużej mierze przypomina systemy takie jak RAG (Retrieval-Augmented Generation). Pozwala ono modelowi na przeszukiwanie internetu – a dokładniej newsów – w poszukiwaniu najnowszych informacji.
Newsroom umożliwia zadawanie pytań o najnowsze wydarzenia, np. z wczorajszego dnia, i model nie ogranicza się wyłącznie do danych, na których został wcześniej przeszkolony. Zamiast tego, sięga do bazy newsów lub przeszukuje internet, aby na bieżąco dostarczyć odpowiedź opartą na najnowszych danych. To ogromny krok naprzód, ponieważ wiele modeli AI ma ograniczenia związane z aktualnością wiedzy – Bielik, dzięki tej funkcji, jest w stanie dostarczać bardziej aktualne odpowiedzi, co jest szczególnie ważne w kontekście zmieniających się informacji.
Całość funkcjonuje na zasadzie zbliżonej do RAG, gdzie model przetwarza nowe dane, rozumie pytanie i generuje odpowiedź, korzystając z najnowszych informacji. To nie jest wiedza statyczna, którą model ma zapisaną w swoim zbiorze, ale dynamiczne wyszukiwanie i przetwarzanie danych w czasie rzeczywistym.
Raczej jest to podejście architektoniczne, w którym po prostu jesteśmy w stanie dodatkowo wstrzyknąć potrzebne dane. Nie wiem, czy są one pobierane wcześniej, czy w momencie zadania zapytania, ale coś takiego istnieje. Nie jest to interfejs wyglądający na finalny produkcyjny, raczej ma na celu pokazanie modelu i umożliwienie jego przetestowania bez konieczności posiadania wiedzy na temat jego wdrożenia u siebie. To pewnie również lekcja, którą wyciągnięto. Gdy wystawiono to na ograniczonych zasobach, model był krytykowany za jakość, co wynikało z faktu, że nie był to produkt finalny, lecz jedynie demo i ludzie nie wiedzieli jak je przetestować. Teraz poszli krok dalej.
Google również wprowadza zmiany, ponieważ nie tylko OpenAI coś modyfikuje. Google działa bardziej dyskretnie, ponieważ już od jakiegoś czasu oferują modele Gemini w dwóch wersjach: Pro i Flash. Pro jest bardziej zaawansowany, a Flash – szybszy i prostszy. W większości przypadków Flash wystarcza. Obecnie modele te są dostępne w wersjach eksperymentalnych. "Experimental" oznacza, że jest to wersja eksperymentalna, która może się zmienić lub zniknąć. Google udostępnia je bez rekomendacji używania w produkcji i nie gwarantuje, że model pozostanie dostępny.
Podobnie jak wersje bez eksperymentalnych wariantów, te modele zachowują się inaczej. Testy pokazują, że za pomocą mniejszego i mniej skomplikowanego promptu można zmusić model do bardziej złożonego działania, co pozwala uzyskać efekty zbliżone do modelu o1, który oferuje dokładniejsze rozumowanie i analizę. W takich przypadkach, gdy potrzebna jest szczegółowa analiza raportu i wyciąganie wniosków, model eksperymentalny za pomocą prostego promptu może dostarczyć znacznie bardziej złożoną odpowiedź.
Nie wiem, czy to jest odpowiedź na wersję Preview. Prawdopodobnie nie, albo jest mniej widoczna, ponieważ to nowy model w wersji eksperymentalnej. Jednak na chwilę obecną jest darmowy. W przyszłości, jeśli wersja eksperymentalna zostanie utrzymana, prawdopodobnie będzie dostępna w podobnej cenie jak modele Flash. Stanie się następną wersją tego modelu, ponieważ dziedzina, o której mówimy, bardzo szybko się zmienia. Mam nadzieję, że informacje, które teraz przedstawiamy, będą aktualne na dzień publikacji naszego odcinka. Trzymamy kciuki, aby właściwości modelu eksperymentalnego zostały zachowane i można było z niego korzystać za darmo.
Ostatnio podczas rozmów na konferencji spotkałem się z opinią, że OpenAI i Google wybrały różne ścieżki. Google skoncentrowało się na dużym oknie kontekstu, oferując już dwumilionowe okno, podczas gdy OpenAI bardziej skupiło się na rozumowaniu i procesie myślowym, czyli na bardziej zaawansowanych strategiach. Nie wiadomo, czy konkurują we wszystkim, czy każdy poszedł w innym kierunku z własną strategią. Przekonamy się, co przyniesie przyszłość.
Podobnie jak OpenAI oferowało Custom GPTs, czyli modele opakowane naszymi promptami, które pozwalały stworzyć asystenta dostosowanego do naszych potrzeb, Google w interfejsie Gemini wprowadziło coś, co nazywa się "gemy". To umożliwia wybór modelu, dodanie do niego customowego promptu i rozmowę z asystentem, który ma w pamięci dostarczony prompt.
Ziemek: Różnica polega na tym, że gemy od Gemini nie mogą być wzbogacone o inne źródła danych – wszystko musi być zawarte w promptach. W Custom GPT można dodawać pliki Word, PDF, Excel, a wiedza z nich również zostanie wykorzystana.
Ciekawe jest to, że OpenAI i Google mają różne strategie. OpenAI dąży do stworzenia AGI (Artificial General Intelligence), czyli silnej inteligencji, a ich kolejne produkty zbliżają się do tego celu. Z kolei Facebook wybrał inną drogę, obiecując model Open Sowy. Istnieją wątpliwości prawne, dlatego nie będziemy ich omawiać, ale warto wiedzieć, że Facebook przyznał, iż ich model LLaMa był uczony na danych publicznie dostępnych na Facebooku. Oznacza to, że użytkownicy, którzy publikowali treści publiczne na Facebooku, mogą być współautorami jednego z najlepszych modeli dostępnych za darmo.
Janek: Wracając do Google, oprócz flagowego modelu Gemini, firma publikuje także otwarty model o nazwie Gemma. Jest on prostszy, ma mniejsze wymagania, ale pozwala na uruchomienie na lokalnym komputerze i jest wystarczający do wielu zastosowań. Ostatnio Google wprowadziło DataGemma – wariant tego modelu, który ma silne powiązanie z danymi z Data Commons, ogromnym zbiorem danych statystycznych i badawczych. Data Gemma wykorzystuje te dane do zapewnienia, że odpowiedzi modelu są oparte na rzeczywistych danych, co minimalizuje ryzyko halucynacji, czyli dostarczania nieprawidłowych informacji. Model ten sprawdza poprawność odpowiedzi zarówno przed, jak i po jej udzieleniu, co czyni go idealnym do zastosowań wymagających precyzyjnych danych liczbowych.
Podsumowując, zarówno Google, OpenAI, jak i Facebook rozwijają swoje modele AI w różnych kierunkach, dostosowując je do różnych potrzeb użytkowników. Każdy z tych gigantów technologicznych ma własną strategię, która będzie miała wpływ na przyszłość sztucznej inteligencji.
Ziemek: No dobrze, ale w jaki sposób można z niego skorzystać? Czy tylko i wyłącznie przez interfejs programistyczny, czy też jest coś bardziej dostępnego?
Nie wydaje mi się, żeby to był tylko interfejs programistyczny. To otwarty model, który można po prostu uruchomić. Być może istnieją jakieś interfejsy, które go gdzieś wystawiają, ale to raczej nie jest taka usługa, gdzie wchodzisz na Gemini i masz dostęp do modelu.
Natomiast można wejść na Gemini i wygenerować obrazek. I to jest nowość. Google od dłuższego czasu pracowało nad modelem IMAGEN, który był dla nas jeszcze niedostępny. To model podobny do Midjourney czy DALL-E, czyli generujący obrazki na podstawie tekstu. Obecnie możemy z niego korzystać zarówno z poziomu interfejsu Gemini, co pozwala poprosić model, aby coś narysował, jak i bardziej programistycznie, poprzez konsolę Google.
Jeśli jesteśmy w Stanach, albo nie w Europie, albo posiadamy VPN, możemy również skorzystać z usługi o nazwie IMAGEN FX, która jest edytorem promptów. Jakość wygenerowanego obrazka mocno zależy od tego, jak dobrze napisany jest prompt. IMAGEN FX to edytor, który poprawia i sugeruje zmiany w promptach. Oznacza to, że obecnie mamy dostęp do modelu umożliwiającego generowanie obrazków, a Google bardziej publicznie dołączyło do kategorii, w której możemy tworzyć grafiki.
Ziemek: Tak a propos generacji obrazków, to ostatnio była dosyć głośna sprawa związana z Tomem Hanksem. Jest osobą publicznie znaną, której wizerunek byłby wykorzystywany. Prawdopodobnie został wygenerowany przez osoby, które chciały wprowadzać w błąd ludzi, wykorzystując wizerunek znanej osoby. Tom Hanks na swoim profilu powiedział: "Hej, słuchajcie, to nieprawda. Ja nic nie reklamuję tutaj produktów ani usług. Nie korzystajcie, ponieważ to są generalnie źli ludzie, którzy kradną moją podobiznę."
Janek: Te wszystkie narzędzia z jednej strony są naprawdę fajne i zaawansowane, potrafią generować obrazy z dużą spójnością – każda kolejna generacja przedstawia tę samą osobę. Jednak trzeba uważać na to, co się tworzy i ogląda. Mówimy o obrazkach, ale to samo dotyczy wideo. Nawet Runway ML potrafi bardzo dobrze generować obrazki, a coraz nowsze modele potrafią już od jakiegoś czasu nie tylko generować obrazki na podstawie opisu tekstowego, ale również wideo. Obecnie opublikowali wersję "video to video", czyli na podstawie istniejącego wideo można przygotować inny film. Możemy na przykład wgrać nagraną sekwencję i poprosić model o jej ulepszenie lub zmianę zgodnie z naszymi oczekiwaniami. Co więcej, niedawno udostępnili to nie tylko poprzez interfejs, ale również poprzez API, co umożliwia łatwe użycie tego narzędzia na dużą skalę.
Ziemek: W jednym z demo, które oglądałem, była dziewczynka, która z lupą przyglądała się kwiatkowi na łące. To był rzeczywisty film nagrany przez człowieka, a model wygenerował następne klatki. Wygenerowane klatki nie przedstawiały dziewczynki, lecz widok z jej oczu przez lupę na kwiatka, którego wcześniej w ogóle nie było w nagraniu. To pozwala na przykład nie nagrywać wszystkiego – jeśli zapomnimy coś nagrać, możemy dograć brakujące sceny lub fragmenty. Naprawdę robiło wrażenie, że nie widać różnicy pomiędzy jakością nagraną przez człowieka a wygenerowaną przez komputer.
Janek: Na poziomie pojedynczych zdjęć ludzkość osiągnęła etap, w którym potrafimy tworzyć rzeczy fotorealistyczne. Teraz rozwój polega na tworzeniu coraz dłuższych materiałów – z jednego zdjęcia przechodzimy do trzech sekundowego filmiku, który jest tak naprawdę animowanym zdjęciem, a następnie do coraz dłuższych produkcji. Obecnie można znaleźć filmy czy zwiastuny trwające dwie minuty, które są w całości wygenerowane przez AI – zarówno w warstwie wideo, jak i dźwięku oraz scenariusza. W wielu przypadkach są one nieodróżnialne od tych tworzonych tradycyjnie poprzez nagrywanie i tworzenie treści.
Ziemek: Mówimy tutaj o pozytywnych aspektach, które się udają, ale nie zawsze wszystko idzie zgodnie z planem. Wiele jest przypadków, które można nazwać wpadkami. Jednym z ostatnich jest publikacja modelu Reflection 70B, dużego modelu, ale mimo wszystko znacznie mniejszego niż wiele obecnych modeli. Twórca tego modelu twierdził, że jest on wielokrotnie lepszy jakościowo od obecnych rozwiązań, jednocześnie będąc dużo mniejszym. Jednak po opublikowaniu modelu wiele osób próbowało powtórzyć te znakomite wyniki, ale okazało się, że nie udaje się ich osiągnąć. Teraz wszyscy zastanawiają się, czy to jest jakiś przypadek, czy może była intencja wprowadzenia ludzi w błąd. Pojawiają się głosy, że pod spodem wykorzystywany był model Anthropic Sonnet 3.5. Ponadto testy pokazują, że gdy do modelu podaje się instrukcje zawierające słowo "Sonnet", on tego nie robił, wycinając to, jakby istniały instrukcje zabraniające użycia tej nazwy, aby przypadkiem nie ujawnić, że korzysta z tego rozwiązania. Czy tak jest? Nie wiadomo. Twórca odniósł się do tego, tłumacząc się błędną konfiguracją. Podobno ma coś zmienić, ale jeszcze tego nie zrobił, więc sprawa nie jest jasna. Dlatego odradzamy korzystanie z Reflection, dopóki sprawa się nie wyjaśni.
Ziemek: Dlatego warto słuchać naszego podcastu, aby wiedzieć, z czego korzystać, a czego unikać.
Janek: Dzięki!
Sztuczna inteligencja zmienia świat pracy i technologii. Przeczytaj, jak AI wpływa na rynek pracy, automatyzację procesów oraz rozwój nowych modeli, takich jak GPT-4.
Konferencja Apple WWDC 2024 – nowości w sztucznej inteligencji. Omawiamy najnowsze wieści z konferencji Apple dotyczące rozwoju AI.