Beyond AI
Czy MidJourney radzi sobie z generowaniem spójnych postaci? Testujemy
Poniższy artykuł jest uzupełnieniem dla filmu, który powstał na kanale Beyond AI. Zachęcamy do obejrzenia materiału wideo na naszym kanale, aby uzyskać pełniejszy obraz omawianych tematów oraz zobaczyć praktyczne przykłady zastosowania sztucznej inteligencji w codziennym życiu. Przejdź na kanał Beyond AI, aby odkryć więcej fascynujących treści związanych z AI!
Obejrzyj ten materiał na YouTube:
Dzisiaj opowiemy o bardzo ciekawym projekcie, który zrobił Charlie Holtz. Wykorzystał kilka technologii AI, w szczególności GPT Vision oraz Eleven Labs, aby stworzyć program, który obserwuje go przez kamerkę komputera i opowiada o jego życiu głosem Davida Attenborough, tak jakby to był film przyrodniczy.
Dzisiaj pokażemy Wam, jak samodzielnie uruchomić ten skrypt (bo Charlie udostępnił go publicznie) oraz co zmienić, żeby narracja była po polsku.
Aby uruchomić ten skrypt, musicie mieć komputer z Pythonem. Charlie podaje link do swojego GitHuba, gdzie umieścił projekt "narrator" - przejdź na GitHub.
Teraz wystarczy sklonować repozytorium, które udostępnił Charlie. Po wejściu do katalogu "narrator", trzeba zainstalować wszystkie wymagane biblioteki za pomocą prostego polecenia PIP.
<code>
‘ git clone https://github.com/cbh123/narrator.git
‘ cd narrator/
‘ pip install -r requirements.txt
</code>
Następnie, aby dostosować narrację do języka polskiego i użyć waszych kluczy dostępowych, musimy zmienić kilka rzeczy w plikach. Przede wszystkim w pliku narrator.py warto zmienić prompt, który jest używany do generowania opisu obrazka, na polski.
> "Jesteś Krystyną Czubówną. Opisz zdjęcie tak, jak zrobiłabyś to w filmie przyrodniczym. Bądź dowcipna. Nie powtarzaj się. Przygotuj krótki opis. Jeśli na zdjęciu będzie coś choć trochę śmiesznego, zrób z tego wielką sensację! Mów tylko po polsku."
Poza tym musimy dostosować parametry modelu do wywołania funkcji generującej audio, aby korzystać z modelu, który umożliwia generowanie tekstu w językach innych niż angielski, czyli “eleven_multilingual_v2”.
Jedyne, co nam pozostaje, to wyeksportowanie w terminalu wartości trzech kluczy: klucza OpenAI API, klucza Eleven Labs API (gdzie również musimy się zarejestrować) oraz klucza wskazującego na konkretny głos, który chcemy wykorzystać.
Pamiętajmy, że klucze do zasobów Eleven Labs muszą być podawane w cudzysłowie.
Wystarczy zarejestrować się na stronie Eleven Labs, a następnie w zakładce Voice Lab stworzyć Add Generative Or Cloned Voice.
W darmowej wersji możemy stworzyć sztuczny głos, wchodząc w Voice Design. Wybieramy parametry, jak płeć, wiek oraz akcent i klikając Generate.
Mamy stworzony głos, teraz kopiujemy voice ID, które wyeksportujemy w terminalu, aby go użyć.
Po tych zmianach wystarczy uruchomić dwa pliki w dwóch okienkach terminala: capture.py oraz narrator.py.
Niestety całość zajmuje dość długo, generowanie głosu trwa mniej więcej tyle, co jego odczytywanie. Trzeba uzbroić się w cierpliwość.
Ten efekt odsłuchacie w filmie od tego momentu 4:29. Jest to głos wygenerowany, ale możemy użyć też płatnej wersji Eleven Labs, żeby załadować do niego dowolną próbkę głosu, np. swoją lub osoby o rozpoznawalnym głosie.
W naszym filmie od 5:25 zobaczysz, jak wygląda efekt, kiedy w celach edukacyjnych użyczyliśmy głosu Krystyny Czubówny. Efekt jest wręcz powalający! Dajcie znać pod filmem, co myślicie o tym eksperymencie!
Zapraszamy do odwiedzenia kanału Beyond AI, który jest poświęcony sztucznej inteligencji. Nasze hasło przewodnie to "Twój przewodnik po dynamicznym świecie AI". Odkryj fascynujące treści i bądź na bieżąco z najnowszymi trendami w dziedzinie AI!
Tworzenie aplikacji nigdy nie było prostsze! Dowiedz się, jak bez wiedzy technicznej, z pomocą Aidera, asystenta AI do programowania, stworzyć program generujący kody QR.
Dowiedz się, jak zaprogramować prostą grę za pomocą AI, używając modelu Claude 3.5. Obejrzyj instrukcje i pobierz gotowy projekt!