Więcej niż synteza mowy – prawdziwa ekspresja. ElevenLabs ma nowy model AI

ElevenLabs znany jest z zaawansowanych rozwiązań w obszarze sztucznej inteligencji głosowej. Firma właśnie zaprezentowała swój najnowszy model transformujący tekst do mowy – Eleven v3, w którym postawiła na ekspresję i realizm.

Karol Kopańko

09.06.2025 06:59

Dodaj do ulubionych w GoogleDodaj do ulubionych źródeł w Google

Więcej niż synteza mowy – prawdziwa ekspresja

REKLAMA

Trzecia wersja modelu ma oddawać niuanse ludzkiej mowy. Największą nowością jest możliwość zmiany tonacji w trakcie pojedynczego zdania, płynne przechodzenie między różnymi postaciami oraz reagowanie na znaczniki sterujące, jak szept, śmiech czy westchnienie. Ma to pozwolić na precyzyjną kontrolę nad sposobem wypowiedzi przy zachowaniu naturalności i ciągłości mowy. Właśnie to było dotychczas największym wyzwaniem dla tego typu technologii.

Eleven v3 to najbardziej ekspresyjny model text-to-speech w historii. Umożliwia pełną kontrolę nad emocjami, sposobem wypowiedzi oraz niewerbalnymi sygnałami. Po raz pierwszy AI potrafi wiernie oddać rytm i ekspresję ludzkiej rozmowy - mówi Mati Staniszewski, współzałożyciel firmy.

REKLAMA

Nowa wersja wprowadza też tryb dialogu umożliwiający tworzenie naturalniejszych rozmów między wieloma postaciami, z zarządzaniem przerwami i zmianami tonu emocjonalnego. Wkrótce dostępny ma być streaming w czasie rzeczywistym, co otworzy drzwi do zastosowań np. w call center (wcześniejsze wersje - v2.5 Turbo oraz Flash - również charakteryzowały się niewielkimi opóźnieniami).

ElevenLabs obsługuje już 70 języków

Wcześniejsza wersja obsługiwała 33 języki, pokrywając około 60 proc. populacji świata.

REKLAMA

Czytaj więcej o sztucznej inteligencji:

REKLAMA

Model jest już dostępny w publicznej wersji alpha na platformie elevenlabs.io. Oznacza to, że każdy zainteresowany może przetestować nowe możliwości, choć należy pamiętać, że wersja alpha wymaga bardziej precyzyjnej pracy z promptami niż wcześniejsze modele.

Model sprawdzi się tam, gdzie ważna jest ekspresja

Model został stworzony z myślą o twórcach treści, deweloperach oraz firmach produkujących materiały audio. Idealnie sprawdzi się przy tworzeniu opowiadań, audiobooków, dialogów postaci oraz interaktywnych mediów wymagających przekazywania emocji.

Platforma obsługuje również automatyczne rozpoznawanie języka, umożliwiając płynne prowadzenie rozmów wielojęzycznych bez konieczności ręcznej konfiguracji. Dodatkowo, wbudowany system RAG (Retrieval-Augmented Generation) pozwala na natychmiastowy dostęp do zewnętrznych baz wiedzy przy zachowaniu minimalnych opóźnień i wysokich standardów prywatności.

REKLAMA

Ile to wszystko kosztuje?

Bezpłatny plan oferuje 15 minut miesięcznie. Dostępne są również plany dla twórców indywidualnych (od 5 do 99 dolarów miesięcznie), aż po rozwiązania enterprise za 1320 dolarów miesięcznie z 13 750 minutami i 30 równoczesnymi połączeniami.

REKLAMA

Karol Kopańko

Redaktor

Tagi:

elevenlabs

REKLAMA