To jest dopiero rewolucja. Bot z Polski bierze oddech między zdaniami i naśladuje głosy sław
Syntezator mowy Eleven Labs potrafi bezbłędnie przemówić głosem Leonardo di Caprio, Billa Gatesa i Kim Kardashian. Model potrafi dowolnie sklonować głos na podstawie próbek, którymi wypełniony jest internet.
Poniższe demo to jedno z najciekawszych wideoprezentacji startupu, jakie widziałem. Choć na ekranie przez cały czas widzimy Leonardo di Caprio, to wkrótce zaczyna mówić jak Joe Rogan i Steve Jobs.
A to tylko jeden z produktów Eleven Labs, startupu, który działa dopiero od roku, a już teraz może wprowadzić zamieszanie na rynku audiobooków, lokalizacji filmów czy gier.
Polski produkt potrafi automatycznie generować głos lektora
Perfekcyjny tembr głosu, dobra kadencja, nienaganna dykcja i wyrazistość, a także idealnie odwzorowane emocje - to najważniejsze cechy, którymi można opisać głos lektora. Po przesłuchaniu poniższego fragmentu mogę zgodzić się ze stwierdzeniem, że większości ludzi trudno będzie odróżnić głos wygenerowany przez komputer od prawdziwego - ludzkiego.
Choć w języku angielskim powstaje najwięcej treści, to Eleven Labs już teraz udostępnia siedem języków.
Lektor AI przemówi po francusku, niemiecku, hindi, włosku, polsku, portugalsku i hiszpańsku
Za stworzeniem Eleven Labs stoją Mateusz Staniszewski i Piotr Dąbkowski. Dwudziestoparolatkowie, którzy po warszawskim liceum wyjechali na studia za granicę. Zanim poszli na swoje zdobywali doświadczenie w Operze, BlackRocku, Palantirze i Google.
Na własną rękę tworzyli silniki rekomendacyjne i narzędzia do analizy sentymentu i emocji. W styczniu 2022 roku zarejestrowali Eleven Labs i zaczęli pracę nad technologią. Kiedy pierwsze demo było gotowe zaczęli pokazywać je inwestorom, m.in. Bartkowi Puckowi i Tomaszowi Karwatce, a także funduszom inwestycyjnym z brytyjskim Concept Ventures i czeskim Credo Ventures na czele. Wszyscy złożyli się na przedzalążkową rundę inwestycyjną opiewającą na 2 mln dolarów.
Od dubbingu po deep fake
O tym, co potrafią stworzyć pomysłowi ludzie, wykorzystując kilka narzędzi zbudowanych na generatywnym AI najlepiej przekonać się oglądając poniższy trailer „Władcy Pierścieni” w klimatach filmów Wesa Andersona.
Choć sektor filmowy już teraz z zaciekawieniem spogląda na technologię generatywnej AI jako alternatywę do tradycyjnego dubbingu, to należy zwrócić uwagę na jej potencjalnie niebezpieczne implikacje. Tworzenie fałszywych nagrań, które nie będą odróżnialne od rzeczywistych może posłużyć do wywoływania zamieszek, sterowania ludem bądź zwykłego oczerniania przeciwników politycznych. W świecie powszechnego generowania wideo, samo wideo przestaje być powoli dowodem.
Polski startup skupia się jednak oczywiście na potencjale biznesowym. A ten jest ogromny i to nawet, jeśli Mateuszowi i Piotrowi nie uda się zebrać szerokiego grona klientów. Technologią mogą być bowiem zainteresowane nie tylko studia filmowe, ale i giganci technologiczni, dla których kupno nowego narzędzia może być tańsze, niż jego budowa od podstaw.