Polski startup chce zrewolucjonizować pracę zdalną. Dostał kupę kasy
Revoize, polski startup wykorzystujący generatywną sztuczną inteligencję do poprawy nagrań mowy, ogłosił właśnie pozyskanie ponad 2 mln zł w rundzie preseed. Inwestorami są fundusz venture capital AIP Seed oraz Marcin Żukowski ze Snowflake.
Firma stawia sobie ambitny cel - chce zrewolucjonizować komunikację online, poprawiając jakość rozmów w czasie rzeczywistym. Technologia Revoize ma przekształcać zakłócone i zdegradowane nagrania w dźwięk studyjnej jakości przy pomocy generatywnej sztucznej inteligencji.
Za sterami startupu stoi Stanisław Andrzej Raczyński, inżynier i badacz z 18-letnim doświadczeniem w dziedzinach uczenia maszynowego, speech AI i przetwarzania sygnałów. Raczyński pracował wcześniej dla takich gigantów jak Cisco czy Intel.
Dostrzegamy poważny problem na rynku związany z poprawą jakości dźwięku w czasie rzeczywistym. To nie tylko kwestia wyciszania szumów czy usunięcia dźwięków z otoczenia, ale przede wszystkim samego rdzenia dźwięku - mówi Dariusz Żuk.
Pozyskane środki mają przyspieszyć rozwój zaawansowanych algorytmów Revoize i dać firmie przewagę nad konkurencją. Biorąc pod uwagę, że rynek obejmuje praktycznie wszystkich korzystających z komunikacji zdalnej, potencjał wzrostu wydaje się ogromny. Firma już teraz planuje globalną ekspansję.
Mamy kamienie milowe na tę rundę, zarówno od strony technologicznej, jak i biznesowej. Ogólnie rzecz biorąc, naszym głównym celem jest obecnie osiągnięcie odpowiednio wysokiej jakości wyczyszczonego sygnału mowy (mierzonej w skali MOS) oraz wykazanie trakcji z potencjalnymi klientami - mówi w rozmowie z Bizblogiem, Stanisław Andrzej Raczyński.
Czytaj więcej o polskich firmach:
Właśnie od tej skali rozpoczynam rozmowę ze Stanisławem.
Karol Kopańko, Bizblog.pl: W jaki sposób ocenia się jakość głosu?
Stanisław Andrzej Raczyński, Revoize: Wykorzystujemy skalę MOS (ang. mean opinion score) w zakresie od 1 (zła) do 5 (świetna). Nie istnieją w pełni wiarygodne metody oceny MOS oparte o programy komputerowe, jedyną w pełni wiarygodną metodą pozostają testy odsłuchowe z udziałem ludzi. Te są jednak dobrze ustandaryzowane (np. standard P.804) i przy odpowiedniej liczbie nagrań i oceniających je słuchaczy, po uśrednieniu pozwalają na osiągnięcie obiektywnej i miarodajnej oceny jakości.
Pomiar MOS dla danej technologii czyszczenia mowy zależy jednak również od danych testowych, które poddawane są czyszczeniu, co w wielu przypadkach utrudnia bezpośrednie porównanie technologii. Z grubsza jednak rzecz biorąc, typowo testowy zestaw zdegradowanych nagrań projektuje się tak, żeby średni MOS był na poziomie ok. 2 MOS (słaba jakość). Istniejące metody dyskryminatywne są w takim typowym przypadku w stanie poprawić jakość o ok. jeden punkt w skali MOS, a więc do 3 (średnia jakość).
Podejścia dyskryminatywne rozwijały się intensywnie od mniej więcej 2018 roku, ale ich wydajność w zakresie poprawy jakości nasyciła się właśnie mniej więcej na poziomie różnicy ok. 1 MOS.
Dlaczego?
Te metody potrafią jedynie oddzielić mowę od pozostałych dźwięków występujących w sygnale, natomiast jeżeli mowa sama w sobie jest zdegradowana (np. jest przesterowana, odbarwiona, ma ograniczone pasmo, ma pogłos, jest "daleka", jest zniekształcona przez stratną kompresję audio, i wiele innych problemów), dyskryminatywne podejścia nie są zdolne do dalszej poprawy jakości poprzez usunięcie tych degradacji. Do tego potrzeba metod generatywnych, które będą potrafiły zrekonstruować braki w mowie, odtworzyć brakujące częstotliwości, przywrócić oryginalną barwę dźwięku itd. Metody generatywne pozwalają na przebicie szklanego sufitu czyszczenia mowy i uzyskanie potencjalnie perfekcyjnej jakości wynikowego dźwięku mowy.
Jaki cel sobie stawiacie w tym kontekście?
Technologia Revoize już teraz przebija ten szklany sufit, zarówno w wersji offline, jak i czasu rzeczywistego. Naszym celem na najbliższą przyszłość jest osiągnięcie poprawy o 2 MOS dla czasu rzeczywistego na typowym, wymienionym wyżej, zestawie mocno zdegradowanych nagrań. Docelowo chcielibyśmy zbliżyć się do 5 jak tylko jest to możliwe przy danych ograniczeniach na opóźnienie algorytmiczne i złożoność obliczeniową algorytmów.
Czy będziecie się integrować z istniejącymi platformami do komunikacji online, takimi jak Zoom, Microsoft Teams czy Google Meet?
Obecnie każda z platform telekonferencyjnych posiada zintegrowaną technologię czyszczenia mowy, są one jednak wszystkie oparte na dyskryminatywnych sieciach neuronowych, które nie są w stanie poprawić jakości poza usunięciem hałasów tła i dalekiego pogłosu.
W czym wy jesteście lepsi?
Oferujemy możliwość poprawy jakości, zrozumiałości, ale i estetyki samego sygnału mowy. Platformy telekonferencyjne są więc na liście potencjalnych wdrożeń naszej technologii, a wiemy również, że są taką technologią zainteresowane: kilka miesięcy temu Microsoft już drugi rok z rzędu zorganizował Speech Signal Improvement Challenge — konkurs na generatywne algorytmy czyszczenia mowy — a Meta pracuje nad własnymi rozwiązaniami w tym zakresie.
Z jakimi problemami mierzą się tu twórcy? Jak wy do nich podeszliście?
W pierwszej kolejności opracowaliśmy technologię, która działa offline, jako postprocessing, czyli działa na plikach audio w całości. Obecnie mierzymy się z wyzwaniem opracowania wersji technologii, która pozwala na pracę w czasie rzeczywistym, czyli przetwarzanie sygnałów mowy w locie — i to jest nasze podstawowe wyzwanie: jak osiągnąć jakość studyjną w reżimie twardego czasu rzeczywistego, z opóźnieniem algorytmicznym nie przekraczającym 100 ms.
Skoro będziecie przetwarzać rozmowy w czasie rzeczywistym - jak zachowacie ich prywatność?
Cenimy prywatność. Nie wykorzystujemy nagrań użytkowników do żadnych celów, w tym do trenowania modeli. Modele czasu rzeczywistego z założenia pracować będą na krawędzi obliczeniowej i nie będą transmitować sygnałów mowy poza urządzenie użytkownika.
Gdzie jeszcze można wykorzystać waszą technologię?
Zapotrzebowanie na poprawę jakości sygnału mowy w czasie rzeczywistym występuje w takich obszarach jak samochodowe zestawy głośnomówiące czy oprogramowanie dla call center. Natomiast technologie studyjnego głosu offline znajdą zastosowanie nie tylko w kreacji treści audio, ale też przy klonowaniu głosu na potrzeby jego syntezy, czy w branży filmowej.
Jak będziecie monetyzować swoją technologię?
Jeszcze poszukujemy naszego punktu biznesowego skupienia i nasze plany pewnie się jeszcze zmienią. Obecnie skupiamy się na technologii czasu rzeczywistego, która musi być bezpośrednio zintegrowana z danym oprogramowaniem realizującym transmisję głosową, oraz musi pracować na krawędzi obliczeniowej — inaczej wprowadzalibyśmy niepotrzebnie dodatkowe opóźnienie w sygnale.,
A czy jacyś partnerzy testują już waszą technologię?
Tak, ale nie mogę zdradzać nazw. Naszym celem jest zrobienie dwóch pilotażowych integracji jeszcze przed rundą seed.