Ponieważ regularnie prosicie o instrukcję klonowania głosów w usłudze ElevenLabs, postanowiłem w końcu opisać ją w kilku krokach. Jest ona dość prosta, jednak sądząc po otrzymywanych pytaniach, w którymś momencie musi być mało intuicyjna. Mam nadzieję, że z poniższą instrukcją poradzicie sobie bez najmniejszego problemu.
Na początek
Przede wszystkim zacznijmy od tego, czym jest usługa ElevenLabs. Osoby, które nie śledziły wpisów w Mojej Szufladzie, na jej temat mogą dowiedzieć się więcej z artykułu pt. Tworzenie audiobooków za pomocą AI i narzędzia ElevenLabs.
Jeśli później będą chciały przekonać się, jak brzmią sklonowane głosy, posłuchać mogą audiobooka pt. Zakochany po uszy, który stworzony został za pomocą mojego sklonowanego głosu.
A na sam koniec mogą jeszcze obejrzeć krótki filmik, w którym prezentuję, jak w mobilnej aplikacji ElevenReader – słuchać książek głosem dowolnego lektora, w tym także naszym, sklonowanym głosem.
Przygotowania
W ramach przygotowań przede wszystkim powinniśmy odwiedzić stronę usługi ElevenLabs, która znajduje się pod adresem:
https://elevenlabs.io
Generalnie zachęcam do zapoznania się z całym serwisem. Nawet jeśli nie znamy angielskiego, to skorzystać możemy z funkcji tłumaczenia całych stron. Prezentowałem takie rozwiązania między innymi dla przeglądarki Safari w systemie macOS oraz dla Safari na iPhone. Serwis zmienia się bardzo często. Firma ElevenLabs prężnie się rozwija a to sprawia, że na stronie internetowej regularnie pojawiają się nowe usługi i opcje.
Koniecznie powinniśmy także się zarejestrować, a później zalogować. Obie rzeczy możemy zrobić korzystając z adresu:
https://elevenlabs.io/app/sign-in
Przy logowaniu skorzystać możemy z innych naszych kont założonych w takich serwisach jak Google czy Facebook, ale możemy także stworzyć odrębne konto z użyciem adresu e-mail. Podstawowe konto jest bezpłatne. Oczywiście dostępnych jest kilka poziomów subskrypcji, o czym więcej możecie poczytać we wspomnianym wcześniej artykule.
Instrukcja klonowania głosu
- Gdy jesteśmy już zalogowani, klikamy w odnośnik Voices (ang. Głosy).
- W sekcji Voices, oznaczonej nagłówkiem trzeciego poziomu, znajdziemy 3 zakładki
- My voices (ang. Moje głosy) – prezentowane tam są stworzone przez nas głosy.
- Library (ang. biblioteka) – zawiera całą bibliotekę głosów udostępnianych przez ElevenLabs poukładanych alfabetycznie z krótkim opisem każdego z nich.
- Collections (ang. kolekcje) – zestawy głosów znanych aktorów oraz lektorów podzielone na obszary, w których mogą być wykorzystywane – gry, historie romantyczne, chat boty itd.
Nas interesuje informacja oraz przycisk znajdujące się nieco dalej, poniżej filtrów, które pozwalają na sortowanie głosów. A chodzi dokładnie o: Create or clone a new voice (ang. Stwórz lub sklonuj nowy głos) oraz przycisk Add a new voice (ang. Dodaj nowy głos). Ten ostatni aktywujemy.
- Otwarte zostanie okno dialogowe, w którym dokonujemy wyboru typu głosu, jaki chcemy stworzyć. W chwili powstawania tego tekstu znajdowały się tam 3 opcje:
- Voice Design (ang. Projektowanie głosu) – Prototypowa funkcja, która umożliwia tworzenie głosu z poziomu promptu określającego jego najróżniejsze cechy, takie jak wiek, płeć, tembr, dynamikę, wysokość, barwę itd.
- Instant Voice Clone (ang. Błyskawiczne klonowanie głosu) – jedyna funkcja dostępna przy darmowym koncie.
- Professional Voice Clone (ang. Profesjonalne klon głosu).
My klikamy w link: Instant Voice Clone.
- Otwarte zostanie nowy formularz, do którego wprowadzić musimy kilka informacji. W pierwsze pole edycyjne wpisujemy nazwę naszego nowego głosu. Ja w przykładzie wpisałem po prostu Piotr2.
- W kolejnym kroku dodajemy próbki głosu, który chcemy sklonować.
W sumie dołączyć można do 25 plików z nagraniem tego samego głosu. Jednak bardzo ważne jest, żeby żaden z nich nie był większy niż 10MB oraz aby całkowity czas nagrań nie był dłuższy niż 45 min.
W formularzu znajduje się informacja, że ważniejsza jest jakość niż długość nagrań. Jednak próbka do pięciu minut zapewni niewiele materiału do sklonowania. Z własnego doświadczenia dodam, że im dłuższa próbka nagrania, tym lepszy klon głosu.
Warto w tym miejscu również podkreślić, że jako próbek możemy użyć nie tylko nagrań audio, ale także audio-video. Jeśli nie mamy pliku, w którym interesujący nas głos występuje jako jedyny, to zawsze możemy z jednego nagrania powycinać kilka fragmentów i połączyć je w większe próbki. Sens wypowiedzi nie ma znaczenia. Narzędzie ElevenLabs analizuje i klonuje sam głos. Jego barwę, rytm, charakterystyczne manieryzmy, sposób zaczerpywania powietrza, wtrącenia dyskursywne itd.
Jeśli nie mamy przygotowanych wcześniej próbek głosu, a chcemy sklonować nasz własny, to nic straconego. W formularzu możemy kliknąć przycisk Record (ang. Nagrywanie) i mówiąc do mikrofonu komputera, dostarczyć narzędziu ElevenLabs odpowiednią próbkę.
Aby dołączyć pliki z próbkami głosu musimy kliknąć w napis: Click to upload a file or drag and drop (ang. Kliknij aby przesłać pliki lub przeciągnij je i upuść). Niestety czytnik ekranu w żaden sposób nie anonsuje go jako aktywny element.
Otwarty zostanie klasyczny kreator dodawania plików. Za jego pomocą załączamy wszystkie próbki głosów. Jeśli zrobimy to poprawnie, w formularzu wyświetlona zostanie lista dodanych plików.
- Kolejnym elementem jest pole wyboru, po zaznaczeniu którego przesłane nagrania zostaną wyczyszczone z odgłosów tła. W tym miejscu nie sugeruję zaznaczenia lub pozostawienia tego pola niezaznaczonego. Głosy sklonowane z odszumionych próbek w moim odczuciu są nieco wyższe. Z kolei tym tworzonym z oryginalnych nagrań towarzyszyć może cichy szum. Zachęcam do poeksperymentowania i osobistego przekonania się, który głosy będą się Wam bardziej podobały.
- W kolejnym polu edycyjnym możemy zamieścić opis tworzonego głosu. Jeśli głos generujemy dla siebie, to obojętne w jakim języku. Jeśli będziemy chcieli go udostępniać, to warto to zrobić po angielsku. Przykładowo ja swój głos opisałem jako:
Polish male middle age voice (ang. Polski męski głos wiek średni ). - Do głosu możemy, lecz nie musimy dołączać etykiet (ang. labels), które by go w jakiś sposób identyfikowały lub charakteryzowały.
- Bardzo ważnym elementem jest zaznaczenie pola wyboru, czym potwierdzamy, że zapoznaliśmy się z regulaminem usługi, że mamy prawo do dysponowania próbkami przesyłanego głosu, oraz że nie będziemy z niego korzystać do niezgodnych z prawem działań.
- I już na sam koniec klikamy przycisk Add Voice (ang. Dodaj głos).
W zależności od wielkości próbek, w czasie od kilku do kilkunastu minut, na ekranie ponownie wyświetli się lista dostępnych głosów. Jednak tym razem jako pierwszy na liście będzie sklonowany przez nas głos.
Tak sklonowanych głosów możemy używać do generowania krótkich wypowiedzi na stronie ElevenLabs lub do czytania całych książek w mobilnej aplikacji ElevenReader.
Podsumowanie
W zależności od rodzaju posiadanego konta i subskrypcji, w ten sposób możemy sklonować od kilku do kilkudziesięciu głosów. Są to oczywiście głosy niższej jakości, ale profesjonalne klony tworzy się w identyczny sposób. Główna różnica polega na czasie. Zarówno długości próbek, jak i czasie oczekiwania na sklonowany głos.
Jednak nawet błyskawiczne klony, jeśli zadbamy o odpowiednią jakość próbek, stanowić mogą doskonałą alternatywę. Zarówno dla syntezatorów mowy czytających książki, jak i audiobooków, których coraz większa ilość cechuje się marną jakością. To ostatnie dotyczy nie tylko jakości nagrań, ale także głosów i sposobu czytania lektorów.
Poniżej zamieszczam dwie próbki głosu wyższej oraz niższej jakości. Oba głosy powstały z tej samej próbki i czytają ten sam tekst. Dzięki temu porównaniu sami będziecie mogli ocenić czy warto inwestować w głosy wyższej jakości.
- Głos wyższej jakości
- Głos niższej jakości
Dla mnie ogromnym plusem tego rozwiązania jest opcja sklonowania głosu jakiejś bliskiej, lub z innego powodu ważnej dla nas osoby. Wystarczy tylko posiadać nagrania jej głosu. Dotyczy to również ludzi, których już od lat nie ma wśród nas, a za którymi tęsknimy. Możliwość słuchania książek, artykułów lub innych treści odczytywanych ich głosem według mnie jest po prostu bezcenna.
Mam nadzieję, że dzięki powyższej instrukcji więcej osób będzie mogło cieszyć się głosami sklonowanymi za pomocą usługi ElevenLabs.
P.S. Od niedawna aplikacja ElevenReader dostępna jest również na androida.
Podziękowania za poradnik. Tak jak pisałeś by osiągnąć dobry efekt klonowania to trzeba zainwestować w subskrypcję pro. I jest to spory wydatek, jak wspominałeś we wpisie o tworzeniu własnego audiobooka, na marginesie b. dobrze wykonany. Bawiłem się klonowaniem na najtańszej subskrypcji i szczerze mówiąc, większość skslonowanych głosów, mocno odbiega od oryginału. W sumie stworzyłem 10 klonów i mam pytanie. W jaki sposób usunąć sklonowany głos, niby jest instrukcja, jednak nie udaje mi się usunąć felernych klonów. A nie mogę sklonować nowego głosu bo już wykorzystałem limit 10 klonów
Jak otworzysz sobie zakładkę Voices i klikniesz My Voices, to w tabeli, która znajduje się pod przyciskiem Add New Voice znajdują się głosy. Wśród nich także twoje. Przy wybranym głosie klikasz szczegóły i w oknie modalnym, które się pojawi przycisk Usuń.
Fokus może szaleć, bo ElevenLabs ma nie po drodze z dostępnością, ale powinno ci się udać. Powodzenia! 🙂
Właśnie takiego czegoś mi brakowało, ale zastanawia mnie jedna rzecz. Czy można stworzyć sobie jeden głos do czytania w aplikacji nie posiadając żadnej subskrypcji? Z góry dzięki za odpowiedź
Wydaje mi się, że zakładając konto automatycznie jesteś w bezpłatnej subskrypcji. Dlatego uważam, że nie da się bez bezpłatnej czy płatnej subskrypcji wygenerować głosu.
Dzięki Piotr za poradę, rzeczywiście trzeba cierpliwości aby usunąć
Fajnie, że` się udało. 🙂