REKLAMA

Polski startup chce zrewolucjonizować pracę zdalną. Dostał kupę kasy

Revoize, polski startup wykorzystujący generatywną sztuczną inteligencję do poprawy nagrań mowy, ogłosił właśnie pozyskanie ponad 2 mln zł w rundzie preseed. Inwestorami są fundusz venture capital AIP Seed oraz Marcin Żukowski ze Snowflake.

Polski startup chce zrewolucjonizować pracę zdalną. Dostał kupę kasy
REKLAMA

Firma stawia sobie ambitny cel - chce zrewolucjonizować komunikację online, poprawiając jakość rozmów w czasie rzeczywistym. Technologia Revoize ma przekształcać zakłócone i zdegradowane nagrania w dźwięk studyjnej jakości przy pomocy generatywnej sztucznej inteligencji.

REKLAMA

Za sterami startupu stoi Stanisław Andrzej Raczyński, inżynier i badacz z 18-letnim doświadczeniem w dziedzinach uczenia maszynowego, speech AI i przetwarzania sygnałów. Raczyński pracował wcześniej dla takich gigantów jak Cisco czy Intel.

Dariusz Żuk, CEO funduszu AIP Seed, podkreśla realną potrzebę rynkową, jaką rozwiązuje startup.

Dostrzegamy poważny problem na rynku związany z poprawą jakości dźwięku w czasie rzeczywistym. To nie tylko kwestia wyciszania szumów czy usunięcia dźwięków z otoczenia, ale przede wszystkim samego rdzenia dźwięku - mówi Dariusz Żuk.

Pozyskane środki mają przyspieszyć rozwój zaawansowanych algorytmów Revoize i dać firmie przewagę nad konkurencją. Biorąc pod uwagę, że rynek obejmuje praktycznie wszystkich korzystających z komunikacji zdalnej, potencjał wzrostu wydaje się ogromny. Firma już teraz planuje globalną ekspansję.

Mamy kamienie milowe na tę rundę, zarówno od strony technologicznej, jak i biznesowej. Ogólnie rzecz biorąc, naszym głównym celem jest obecnie osiągnięcie odpowiednio wysokiej jakości wyczyszczonego sygnału mowy (mierzonej w skali MOS) oraz wykazanie trakcji z potencjalnymi klientami - mówi w rozmowie z Bizblogiem, Stanisław Andrzej Raczyński.

Czytaj więcej o polskich firmach:

Właśnie od tej skali rozpoczynam rozmowę ze Stanisławem.

Karol Kopańko, Bizblog.pl: W jaki sposób ocenia się jakość głosu?

Stanisław Andrzej Raczyński, Revoize: Wykorzystujemy skalę MOS (ang. mean opinion score) w zakresie od 1 (zła) do 5 (świetna). Nie istnieją w pełni wiarygodne metody oceny MOS oparte o programy komputerowe, jedyną w pełni wiarygodną metodą pozostają testy odsłuchowe z udziałem ludzi. Te są jednak dobrze ustandaryzowane (np. standard P.804) i przy odpowiedniej liczbie nagrań i oceniających je słuchaczy, po uśrednieniu pozwalają na osiągnięcie obiektywnej i miarodajnej oceny jakości.

Pomiar MOS dla danej technologii czyszczenia mowy zależy jednak również od danych testowych, które poddawane są czyszczeniu, co w wielu przypadkach utrudnia bezpośrednie porównanie technologii. Z grubsza jednak rzecz biorąc, typowo testowy zestaw zdegradowanych nagrań projektuje się tak, żeby średni MOS był na poziomie ok. 2 MOS (słaba jakość). Istniejące metody dyskryminatywne są w takim typowym przypadku w stanie poprawić jakość o ok. jeden punkt w skali MOS, a więc do 3 (średnia jakość).

Podejścia dyskryminatywne rozwijały się intensywnie od mniej więcej 2018 roku, ale ich wydajność w zakresie poprawy jakości nasyciła się właśnie mniej więcej na poziomie różnicy ok. 1 MOS.

Dlaczego?

Te metody potrafią jedynie oddzielić mowę od pozostałych dźwięków występujących w sygnale, natomiast jeżeli mowa sama w sobie jest zdegradowana (np. jest przesterowana, odbarwiona, ma ograniczone pasmo, ma pogłos, jest "daleka", jest zniekształcona przez stratną kompresję audio, i wiele innych problemów), dyskryminatywne podejścia nie są zdolne do dalszej poprawy jakości poprzez usunięcie tych degradacji. Do tego potrzeba metod generatywnych, które będą potrafiły zrekonstruować braki w mowie, odtworzyć brakujące częstotliwości, przywrócić oryginalną barwę dźwięku itd. Metody generatywne pozwalają na przebicie szklanego sufitu czyszczenia mowy i uzyskanie potencjalnie perfekcyjnej jakości wynikowego dźwięku mowy.

Jaki cel sobie stawiacie w tym kontekście?

Technologia Revoize już teraz przebija ten szklany sufit, zarówno w wersji offline, jak i czasu rzeczywistego. Naszym celem na najbliższą przyszłość jest osiągnięcie poprawy o 2 MOS dla czasu rzeczywistego na typowym, wymienionym wyżej, zestawie mocno zdegradowanych nagrań. Docelowo chcielibyśmy zbliżyć się do 5 jak tylko jest to możliwe przy danych ograniczeniach na opóźnienie algorytmiczne i złożoność obliczeniową algorytmów.

Czy będziecie się integrować z istniejącymi platformami do komunikacji online, takimi jak Zoom, Microsoft Teams czy Google Meet?

Obecnie każda z platform telekonferencyjnych posiada zintegrowaną technologię czyszczenia mowy, są one jednak wszystkie oparte na dyskryminatywnych sieciach neuronowych, które nie są w stanie poprawić jakości poza usunięciem hałasów tła i dalekiego pogłosu.

W czym wy jesteście lepsi?

Oferujemy możliwość poprawy jakości, zrozumiałości, ale i estetyki samego sygnału mowy. Platformy telekonferencyjne są więc na liście potencjalnych wdrożeń naszej technologii, a wiemy również, że są taką technologią zainteresowane: kilka miesięcy temu Microsoft już drugi rok z rzędu zorganizował Speech Signal Improvement Challenge — konkurs na generatywne algorytmy czyszczenia mowy — a Meta pracuje nad własnymi rozwiązaniami w tym zakresie.

Z jakimi problemami mierzą się tu twórcy? Jak wy do nich podeszliście?

W pierwszej kolejności opracowaliśmy technologię, która działa offline, jako postprocessing, czyli działa na plikach audio w całości. Obecnie mierzymy się z wyzwaniem opracowania wersji technologii, która pozwala na pracę w czasie rzeczywistym, czyli przetwarzanie sygnałów mowy w locie — i to jest nasze podstawowe wyzwanie: jak osiągnąć jakość studyjną w reżimie twardego czasu rzeczywistego, z opóźnieniem algorytmicznym nie przekraczającym 100 ms.  

Skoro będziecie przetwarzać rozmowy w czasie rzeczywistym - jak zachowacie ich prywatność?

Cenimy prywatność. Nie wykorzystujemy nagrań użytkowników do żadnych celów, w tym do trenowania modeli. Modele czasu rzeczywistego z założenia pracować będą na krawędzi obliczeniowej i nie będą transmitować sygnałów mowy poza urządzenie użytkownika.

Gdzie jeszcze można wykorzystać waszą technologię?

Zapotrzebowanie na poprawę jakości sygnału mowy w czasie rzeczywistym występuje w takich obszarach jak samochodowe zestawy głośnomówiące czy oprogramowanie dla call center. Natomiast technologie studyjnego głosu offline znajdą zastosowanie nie tylko w kreacji treści audio, ale też przy klonowaniu głosu na potrzeby jego syntezy, czy w branży filmowej.

Jak będziecie monetyzować swoją technologię?

Jeszcze poszukujemy naszego punktu biznesowego skupienia i nasze plany pewnie się jeszcze zmienią. Obecnie skupiamy się na technologii czasu rzeczywistego, która musi być bezpośrednio zintegrowana z danym oprogramowaniem realizującym transmisję głosową, oraz musi pracować na krawędzi obliczeniowej — inaczej wprowadzalibyśmy niepotrzebnie dodatkowe opóźnienie w sygnale.,

REKLAMA

A czy jacyś partnerzy testują już waszą technologię?

Tak, ale nie mogę zdradzać nazw. Naszym celem jest zrobienie dwóch pilotażowych integracji jeszcze przed rundą seed.

REKLAMA
Najnowsze
Zobacz komentarze
REKLAMA
REKLAMA
REKLAMA