REKLAMA

Więcej niż synteza mowy – prawdziwa ekspresja. ElevenLabs ma nowy model AI

ElevenLabs znany jest z zaawansowanych rozwiązań w obszarze sztucznej inteligencji głosowej. Firma właśnie zaprezentowała swój najnowszy model transformujący tekst do mowy – Eleven v3, w którym postawiła na ekspresję i realizm.

Więcej niż synteza mowy – prawdziwa ekspresja
REKLAMA

Trzecia wersja modelu ma oddawać niuanse ludzkiej mowy. Największą nowością jest możliwość zmiany tonacji w trakcie pojedynczego zdania, płynne przechodzenie między różnymi postaciami oraz reagowanie na znaczniki sterujące, jak szept, śmiech czy westchnienie. Ma to pozwolić na precyzyjną kontrolę nad sposobem wypowiedzi przy zachowaniu naturalności i ciągłości mowy. Właśnie to było dotychczas największym wyzwaniem dla tego typu technologii.

Eleven v3 to najbardziej ekspresyjny model text-to-speech w historii. Umożliwia pełną kontrolę nad emocjami, sposobem wypowiedzi oraz niewerbalnymi sygnałami. Po raz pierwszy AI potrafi wiernie oddać rytm i ekspresję ludzkiej rozmowy - mówi Mati Staniszewski, współzałożyciel firmy.

REKLAMA

Nowa wersja wprowadza też tryb dialogu umożliwiający tworzenie naturalniejszych rozmów między wieloma postaciami, z zarządzaniem przerwami i zmianami tonu emocjonalnego. Wkrótce dostępny ma być streaming w czasie rzeczywistym, co otworzy drzwi do zastosowań np. w call center (wcześniejsze wersje - v2.5 Turbo oraz Flash - również charakteryzowały się niewielkimi opóźnieniami).

ElevenLabs obsługuje już 70 języków

Wcześniejsza wersja obsługiwała 33 języki, pokrywając około 60 proc. populacji świata.

Czytaj więcej o sztucznej inteligencji:

Model jest już dostępny w publicznej wersji alpha na platformie elevenlabs.io. Oznacza to, że każdy zainteresowany może przetestować nowe możliwości, choć należy pamiętać, że wersja alpha wymaga bardziej precyzyjnej pracy z promptami niż wcześniejsze modele.

Model sprawdzi się tam, gdzie ważna jest ekspresja

Model został stworzony z myślą o twórcach treści, deweloperach oraz firmach produkujących materiały audio. Idealnie sprawdzi się przy tworzeniu opowiadań, audiobooków, dialogów postaci oraz interaktywnych mediów wymagających przekazywania emocji.

Platforma obsługuje również automatyczne rozpoznawanie języka, umożliwiając płynne prowadzenie rozmów wielojęzycznych bez konieczności ręcznej konfiguracji. Dodatkowo, wbudowany system RAG (Retrieval-Augmented Generation) pozwala na natychmiastowy dostęp do zewnętrznych baz wiedzy przy zachowaniu minimalnych opóźnień i wysokich standardów prywatności.

Ile to wszystko kosztuje?

REKLAMA

Bezpłatny plan oferuje 15 minut miesięcznie. Dostępne są również plany dla twórców indywidualnych (od 5 do 99 dolarów miesięcznie), aż po rozwiązania enterprise za 1320 dolarów miesięcznie z 13 750 minutami i 30 równoczesnymi połączeniami.

REKLAMA
Najnowsze
Aktualizacja: 2025-06-09T10:54:00+02:00
Aktualizacja: 2025-06-09T09:33:00+02:00
Aktualizacja: 2025-06-09T08:16:00+02:00
Aktualizacja: 2025-06-09T07:08:33+02:00
Aktualizacja: 2025-06-09T06:47:43+02:00
Aktualizacja: 2025-06-08T22:09:00+02:00
Aktualizacja: 2025-06-08T19:15:00+02:00
Aktualizacja: 2025-06-08T17:11:00+02:00
Aktualizacja: 2025-06-08T12:35:00+02:00
Aktualizacja: 2025-06-08T09:45:00+02:00
Aktualizacja: 2025-06-07T19:37:00+02:00
Aktualizacja: 2025-06-06T22:17:00+02:00
Aktualizacja: 2025-06-06T20:01:00+02:00
Aktualizacja: 2025-06-06T18:07:00+02:00
Aktualizacja: 2025-06-06T14:20:00+02:00
Aktualizacja: 2025-06-06T10:58:47+02:00
Aktualizacja: 2025-06-06T10:26:42+02:00
Aktualizacja: 2025-06-06T10:05:00+02:00
Aktualizacja: 2025-06-06T09:02:43+02:00
Aktualizacja: 2025-06-06T08:01:42+02:00
Aktualizacja: 2025-06-06T06:33:00+02:00
REKLAMA
REKLAMA
REKLAMA