Czytaj

13 przełomowych wydarzeń w Generative AI w 2023

2023 był rokiem wielu przełomów w dziedzinie generatywnej sztucznej inteligencji. Poznaj 13, które według nas były najważniejsze.

Publikacja:

2/1/2024

Aktualizacja:

9/1/2024

Rok 2023 okazał się czasem znaczących przełomów w dziedzinie generatywnej sztucznej inteligencji (GenAI), a związane z nimi postępy stały się rewolucyjne. W znaczący sposób przyspieszyły rozmaite procesy i odkrycia naukowe. W tym artykule prezentujemy naszą subiektywną listę najważniejszych wydarzeń w obszarze GenAI w ostatnim roku, które miały największy wpływ na rozwój tej dziedziny i nasze życie.

Rok 2023 obfitował w rozwój dużych modeli językowych i różnorodnych narzędzi na nich opartych. Tym, co przyspieszyło ten postęp i uczyniło dany przełom znaczącym, była nie tylko jakość powstających rozwiązań, ale także ich demokratyzacja. Narzędzia typu open source osiągnęły niebywały poziom rozwoju, zmieniając krajobraz technologiczny i oblicze wielu branż. Powszechna dostępność narzędzi GenAI odkrywa bezprecedensowe możliwości innowacji i wzrostu zarówno dla osób fizycznych, jak i firm.

Najważniejsze przełomy w GenAI w 2023 roku [subiektywna lista]

Styczeń

1. ChatGPT osiągnął bazę użytkowników wynoszącą 100 milionów

Uruchomiony przez OpenAI i wspierany przez Microsoft inwestycją około 10 miliardów, ChatGPT stał się internetową sensacją i został uznany za synonim przełomu w dziedzinie GenAI. Bazę 100 mln użytkowników osiągnął zaledwie w 2 miesiące od publikacji, zaś pierwszy milion w zaledwie 5 dni. Tak szybkiego tempa rozwoju nie zarejestrowała żadna inna aplikacja.

A tyle czasu zajęło innym start-upom dojście do pierwszego miliona użytkowników:

Twitter – 24 miesiące
Facebook – 10 miesięcy
Dropbox – 7 miesięcy
Spotify – 5 miesięcy
Instagram – 3 miesiące

Rewolucjonizując świat biznesu, edukacji i życia codziennego, ChatGPT stanowi potężne narzędzie do automatyzacji, analizy, optymalizacji procesów i podejmowania decyzji. Jego rola jako narzędzia wspierającego kreatywność i efektywność pracy jest niezaprzeczalna.

Potencjalne przykłady użycia to:

obsługa i wsparcie klienta;
diagnostyka i opieka zdrowotna;
edukacja i szkolenia;
marketing i reklama.

Więcej o korzyściach zastosowaniach ChatGPT: ChatGPT i GenAI – zrozum je teraz.

Luty

2. Google uruchomił swojego Barda

Ogromne emocje wywołane pojawieniem się ChatGPT sprawiły, że Google stanął przed wyzwaniem związanym z przewagą konkurencyjną w Internecie. Rozpoczęta rywalizacja między Google Bard a ChatGPT zapoczątkowała jeden z najbardziej fascynujących rozdziałów w historii rozwoju AI, napędzając innowacje w branży technologicznej.

W chwili uruchomienia Bard wykazał się podobnymi do ChatGPT funkcjami, jak:

generowanie różnych formatów tekstowych (wiersze, kod, skrypty, utwory muzyczne, e-maile, listy itp.);
tłumaczenie języków w czasie rzeczywistym;
odpowiadanie na pytania w wyczerpujący i pouczający sposób;
uzyskiwanie dostępu do informacji ze świata rzeczywistego i przetwarzaniem ich za pomocą wyszukiwarki Google.

3. Microsoft zintegrował ChatGPT z wyszukiwarką Bing

W przeciwieństwie do tradycyjnych narzędzi do wyszukiwania zapytań, Bing miał w założeniu działać jako interaktywny chatbot, umożliwiając użytkownikom prowadzenie pogłębionych i rozszerzonych rozmów do konkretnych potrzeb związanych z wyszukiwaniem.

Podczas gdy boty ChatGPT i Barda nadają się do codziennego użytku przez pracowników, niezalecane były w tamtym czasie dla dużych firm, bo wykorzystywały anonimowe dane z interakcji użytkowników w celu poprawy wydajności i możliwości modelu. Rozwiązanie Microsoftu w postaci „Bing Chat Enterprise”, dały z czasem firmom solidne funkcje bezpieczeństwa i umożliwiły pełne wykorzystanie.

Bing Chat wprowadzał takie innowacje, jak:

dodanie nowych elementów wizualnych;
opcję zapisywania i eksportowania rozmów na czacie przez użytkowników;
ulepszony wygląd przeglądarki i możliwości podsumowań w przeglądarce Edge;
integrację wtyczek ułatwiających interakcje z osobami trzecimi.

Marzec

4. Ogłoszono GPT-4 – najnowszą wersję modelu językowego, obsługującego ChatGPT

Tym, co wyróżniło model GPT-4 wśród aplikacji tekstowych, to niezwykła biegłość w analizie dokumentów, kreatywnym pisaniu, tłumaczeniu, kodowaniu i złożonym rozwiązywaniu problemów, a przede wszystkich funkcja rozpoznawania obrazu. W chwili ogłoszenia poszczycił się liczbą 280 miliardów parametrów ML, i choć już wtedy była ona imponująca, to obecnie ma ich ponad 1,7 biliona.

Firmy, które uzyskały wcześniejszy dostęp do GPT-4, zaczęły go wdrażać w takich dziedzinach, jak analiza finansowa, przetwarzanie płatności, nauka języków. Zaczęto go używać do codziennych zadań, jak transkrypcja, podsumowywanie spotkań oraz e-maili. A możliwość interpretacji obrazów GPT-4 pozwoliła na pobieranie arkuszy kalkulacyjnych, plików PDF lub odręcznych notatek i przekształcanie je w prezentacje lub strony internetowe. Zapowiedziano przyspieszenie prac opartych na wiedzy, takich jak wizualizacja danych, copywriting, tłumaczenia, redagowanie i kreatywne generowanie obrazów.

Lipiec

5. Meta publikuje opensourcowy model Llama 2

Wydanie przez Meta Llama 2 jako „open source” wywołało kontrowersyjną debatę na temat definicji open source w AI. Choć okrzyknięto go znaczącym wkładem, ograniczenia skali Llamy 2 wzbudziły wątpliwości co do jej prawdziwej otwartości. Zapoczątkowało to dyskusje na temat potrzeby ponownego zdefiniowania licencjonowania.

6. Firma Anthropic udostępnia chatbota Claude publicznie w USA i GB

Wraz z wypuszczeniem Claude’a 2 Anthropic udostępniła swojego chatbota użytkownikom najpierw w USA i Wielkiej Brytanii, a stopniowo w innych krajach. Zrobili to w 4 miesiące po jego wstępnym ogłoszeniu w marcu, kiedy udostępnilii testową wersję alfa dla biznesu.

‍

Claude 2, podobny jest do ChatGPT od OpenAI i Bard od Google pod względem tłumaczenia tekstu, pisania kodu i odpowiadania na różne pytania. Według Anthropic jest jednak bezpieczniejszy i bardziej niezawodny, ponieważ kieruje się zestawem zasad, co pozwala mu samodzielnie korygować odpowiedzi, zamiast polegać na ludzkich moderatorach. Claude potrafi ponadto reagować na rozszerzone podpowiedzi, dzięki czemu nadaje się do przeglądania dłuższych dokumentów biznesowych lub prawnych.

Sierpień

7. Amazon inwestuje do 4 miliardów dolarów w start-up Anthropic (twórcy Claude’a)

Umowa objęła transakcję początkową o wartości 1,25 miliarda dolarów, która zapewniła Amazonowi mniejszościowy udział w spółce. W porównaniu z 13 miliardami dolarów, które Microsoft zainwestował do tej chwili w OpenAI, może wydawać się mało, niemniej to wyraźny sygnał, że Amazon bierze udział w nasilającym się „wyścigu zbrojeń” z użyciem AI.

W wyniku tej fuzji:

Amazon Web Services (AWS) staje się głównym dostawcę usług chmurowych dla Anthropic;
Anthropic wykorzysta chipy Trainium i Inferentia firmy AWS do budowy, szkolenia i wdrażania Claude’a i przyszłych modeli podstawowych;
AWS zyskuje wyłączny, wcześniejszy dostęp do technologii Anthropic.

Użytkownicy AWS – od dużych korporacji przez startupy po indywidualnych deweloperów – będą mogli skorzystać z Claude i innych modeli Anthropic za pośrednictwem platformy Amazon Bedrock. Umożliwia ona budowanie zaawansowanych aplikacji AI, z użyciem tzw. modeli fundamentowych (foundation models – FMs), które mogą znacząco przekształcić sposób, w jaki firmy podejmują i realizują zadania biznesowe.

Wrzesień

8. Ogłoszono nowe funkcje głosowe i obrazowe ChatGPT

Nowe funkcje pozwalają prowadzić rozmowy głosowe z chatbotem lub udostępniać obrazy, aby wyrazić swoje przemyślenia zamiast polegać jedynie na wpisywanych podpowiedziach. Początkowo udostępniono go płatnym subskrybentom.

Użycie możliwości głosowych ChatGPT to np.:

wirtualny asystent – odpowiada na polecenia głosowe, planuje spotkania, dostarcza informacji w czasie rzeczywistym;
ćwiczenie nowego języka – otrzymuje się informacje zwrotne i poprawia wymowę;
czerpanie korzyści z głosowej burzy mózgów przez twórców treści, dzięki czemu proces jest bardziej dynamiczny i wydajny.

Już w chwili ogłoszenia zauważono, że choć zdolność ChatGPT do tworzenia syntetycznych głosów i obrazów stwarza ogromne możliwości twórcze, niesie też potencjalne niebezpieczeństwa, jak podszywanie się pod inne osoby i możliwość oszustwa.

Październik

9. Microsoft udostępnił Microsoft 365 Copilot w ramach bezpłatnej aktualizacji Windows 11

Udostępnienie szerszej grupie użytkowników nastąpiło po wcześniejszej zapowiedzi narzędzia w marcu oraz wczesnym dostępie dla ok. 600 firm w maju. Teraz Microsoft 365 Copilot jest także dostępny w usługach Bing, który dodał obsługę najnowszego modelu DALL·E 3 (wytrenowanym z wykorzystaniem 12 miliardów obrazów) oraz aktualizację Bing Chat Enterprise, dzięki czemu jest ono bardziej mobilne i wizualne, a także w Edge, z zapowiedzią dla klientów korporacyjnych wraz z usługą Microsoft 365 Chat.

Dzięki ponad 150 nowym funkcjom aktualizacja Windows 11 staje się jedną z najbardziej ambitnych, zapewniając nowe doświadczenia oparte na AI w aplikacjach takich jak Paint, Photos, Clipchamp i innych bezpośrednio na komputerze z Windows.

Microsoft 365 Copilot to asystent AI, który całkowicie odmienił charakter pracy. Jego wyjątkowość polega m.in. na tym, że:

jest zintegrowany z narzędziami codziennej pracy, np. Teams, Excel, Word, Outlook, PowerPoint;
umożliwia to użytkownikom wykonywać zadania, takie jak pisanie bloga, tworzenie prezentacji;
tworzy kalendarze spotkań i podsumowuje je szybciej i skuteczniej;
wykorzystuje usługę Microsoft Search do wyszukiwania i uzyskiwania odpowiedzi na informacje zgodnie z monitem.

Listopad

10. Premiera GPT-4 Turbo, najnowszej wersji OpenAI

To inteligentniejszy, szybszy, dokładniejszy i wydajniejszy model GPT-4. Zaawansowanie GPT-4 Turbo polega na wiedzy o wydarzeniach światowych do kwietnia 2023 roku. Jego okno kontekstowe 128k pozwala na przetwarzanie równowartości ponad 300 stron tekstu w jednym zapytaniu.

Cechy GPT-4 Turbo, jak również rozwiązania AI, które dostosowują chat do indywidualnych potrzeb, sprawiają, że jest to idealne rozwiązanie dla firm wymagających szybkich i niezawodnych rozwiązań AI. Jego zdolność do szybkiego przetwarzania dużych ilości danych zmienia zasady gry w środowisku biznesowym poprzez:

szybsze podejmowanie decyzji biznesowych;
ulepszone interakcje z klientami;
udoskonalone możliwości analizy danych.

Jednocześnie wprowadzono Assistants API, który ma całą moc podstawowych modeli GPT oraz kilka niezwykłych funkcji, jak integracja własnych danych, wykonywanie kodu Pythona oraz korzystanie z niestandardowych funkcji i zewnętrznych interfejsów API. Powstał, aby pomóc deweloperom i twórcom aplikacji zintegrować funkcje AI z ich aplikacjami,, a także przezwyciężyć ograniczenia okna kontekstowego.

Nowatorstwo Assistants API polega na możliwości stworzenia wyspecjalizowanego „asystenta”, który może postępować zgodnie z dokładnymi instrukcjami, uzyskiwać dostęp do zewnętrznych baz wiedzy. Silnikiem obsługującym Assistants API jest Code Interpreter, autorskie narzędzie opracowane przez OpenAI.

Deweloperzy mogą ponadto:

integrować DALL·E 3 bezpośrednio w swoich aplikacjach i produktach przez API obrazów;
generować mowę naturalną z tekstu za pomocą API text-to-speech – to wielka rewolucja ułatwiająca tworzenie i generowanie obrazów, a przy tym możliwość podsumowania głosowego stworzonych produktów.

Grudzień

11. UE ogłosiła pierwsze na świecie ustawodawstwo dotyczące AI – „AI Act”

Kolejnym krokiem do uchwalenia AI Act staną się głosowania w komisjach Parlamentu Europejskiego – IMCO i LIBE, a następnie przegłosowanie rozporządzenia na sesji plenarnej wszystkich europosłów w marcu lub kwietniu 2024.

Projektowi temu od początku, a sięga 2021 roku, towarzyszą silne emocje i burzliwe rozmowy. Projekt AI Act nie uwzględniał wtedy jeszcze generatywnych i podstawowych systemów AI – obecnie najważniejszych.

Przedmiotem sporów między przedstawicielami unijnych instytucji było to, do której kategorii trafią zastosowania AI budzące największe obawy. AI Act dzieli zastosowania AI na cztery kategorie i zależnie od tego nakłada określone obowiązki.

nieakceptowalne rozwiązania – będą zakazane;
zastosowania wysokiego ryzyka – zostaną dopuszczone do stosowania pod ścisłą kontrolą;
zastosowania ograniczonego ryzyka – będą objęte obowiązkami informacyjnymi;
zastosowania AI minimalnego ryzyka – unikną regulacji.

Jak podawał Euroactiv, Francja, Niemcy i Włochy zwrócili się o łagodniejszy system regulacyjny dla modeli AI o szerokim zastosowaniu (jak np. Chat GPT i Bard). Argumentowały, że nie chcą podcinać skrzydeł europejskim start-upom, które mogłyby w tej dziedzinie stworzyć rozwiązania konkurencyjne dla amerykańskich.

12. Google zaprezentowało model Gemini (dawny Bard)

Twórca Gemini, Google, twierdzi, że jest to największy i najpotężniejszy model AI. Stanowi on bezpośrednią konkurencję dla istniejących już modeli; ma moc obliczeniową pięciokrotnie większą niż GPT-4. Udostępniony publicznie na początku grudnia, wzbudził wiele kontrowersji, bo jak się później okazało Google sfałszowało części demo Gemini AI.

Od strony technologicznej to nowy, zaawansowany model językowy, który oparto na technologii Tensor Processing Units v4 i v5e. Ma 3 wersje:

Gemini Pro to wszechstronny model ogólnego zastosowania AI. Idealne rozwiązanie dla firm i deweloperów, którzy potrzebują wydajnego, ale mniej specjalistycznego narzędzia AI.
Gemini Ultra zaprojektowano z myślą o najbardziej wymagających i złożonych zastosowaniach AI. Idealnie nadaje się do dużych projektów badawczych, zaawansowanej analizy danych i złożonych problemów wymagających głębokiego uczenia się i rozumowania.
Gemini Nano to rozwiązanie dla urządzeń mobilnych i aplikacji na urządzenia przenośne, takich jak Pixel 8 Pro i jest zoptymalizowana pod kątem wydajności i zużycia energii.

Początkowo udostępniony w USA, z czasem w regionie Azji i Pacyfiku, Ameryki Łacińskiej, Ameryki Północnej i Afryki. Nie od razu był dostępny w Europie, z powodu trwających wtedy prac nad prawem unijnym. Obecnie (maj 2024) jest już dostępny dla użytkowników w Europie.

13. New York Times złożył pozew przeciwko OpenAI i Microsoftowi

Roszczenie dotyczy złamania zasad uczciwej konkurencji. Według przedstawicieli tego dziennika, AI najpierw uczyła się na tysiącach tekstów opublikowanych na łamach NYT, a teraz sama tworzy konkurencyjne teksty, w których czuć wpływ stylu dziennikarzy tej gazety.

Zgodnie z pozwem, Microsoft i OpenAI zarabiają na tym ogromne kwoty. NYT czuje się zagrożony utratą „miliardów dolarów” potencjalnych zysków w przyszłości i nieuczciwą konkurencją ze strony takich usług jak Copilot. Dziennik domaga się, aby modele LLM przestały wykorzystywać jego materiały do nauki. Podobnego zdania są również BBC, CNN oraz Reuters, które zablokowały tzw. crawlery, przeczesując sieć w poszukiwaniu tekstów, z których Copilot/ChatGPT korzystają podczas tworzenia swoich artykułów.

Wnioski i prognozy

GenAI staje się potężną siłą w kształtowaniu przyszłości – od przekształcania strategii biznesowych i modeli operacyjnych po przedefiniowanie kreatywności artystycznej i przyspieszanie odkryć naukowych. Jest też oczywiste, że możliwości, jakie stwarza ta technologia, są zarówno ogromne, jak i złożone. Rewolucja z nią związana to nie tylko sprawność technologiczna, ale także torowanie drogi dla mądrzejszej, bardziej kreatywnej i wydajniejszej przyszłości.

Podsumowanie

W miarę jak organizacje będą badać i integrować technologie GenAI, uwaga w 2024 roku będzie się jeszcze mocniej skupiać na zarządzaniu ryzykiem i dalszych aspektach prawnych zapoczątkowanych w UE, tak by zapewnić odpowiedzialne i skuteczne wykorzystanie mocy i potencjału AI w sposób korzystny dla całej ludzkości.

Jeśli chcesz być na bieżąco z kolejnymi przełomami w obszarze AI, koniecznie zasubskrybuj nasz kanał YouTube Beyond AI. Na bieżąco omawiamy tam najnowsze odkrycia z obszaru GenAI i chętnie zostaniemy również Twoim przewodnikiem po tej dynamicznej dziedzinie. Do usłyszenia!

Powiązane artykuły

Transkrypcja nagrań na tekst – wybierz najlepsze narzędzie online

Automatyczna transkrypcja AI to przyszłość. Dowiedz się, jak AI eliminuje ograniczenia ręcznego przepisywania i przyspiesza pracę. Wypróbuj najlepsze rozwiązania online.

Przeczytaj Artykuł

LLM – jak duże modele językowe zmieniają przyszłość?

Dowiedz się, jak duże modele językowe (LLM) rewolucjonizują przetwarzanie języka, redefiniują branże i tworzą nowe wartości biznesowe w erze AI.

Przeczytaj Artykuł