Přeskočit na obsah
ejaj.cz

Unreal Speech

FreemiumPřevod text-na-řeč

Unreal Speech je API pro převod textu na řeč, které nabízí rychlý streaming, 48 hlasů v 8 jazycích a časové značky na úrovni jednotlivých slov.

unrealspeech.com
Náhled nástroje Unreal Speech

O nástroji

Unreal Speech je textové TTS API zaměřené na nízkou cenu a vysoký výkon. Zvuk začne streamovat do 300 ms od požadavku, přičemž jeden požadavek může vygenerovat až 10 hodin audia. Služba je postavena na modelu Kokoro-82M a podle vlastního srovnání vychází výrazně levněji než konkurenční řešení jako ElevenLabs. API podporuje per-word timestamps – ke každému vygenerovanému slovu vrátí časový údaj začátku a konce, což umožňuje synchronizaci textu se zvukem (například zvýrazňování slov při přehrávání). Timestamps lze získat přes REST endpoint i přes WebSocket spojení pro real-time streaming audia i značek zároveň. Začít lze zdarma s limitem 250 000 znaků. Cena za další provoz klesá s rostoucím objemem využití. Nástroj je určen primárně pro vývojáře, kteří potřebují TTS integrovat do vlastních aplikací, a poskytuje ukázky kódu pro rychlý start.

Klíčové vlastnosti

  • Streaming audia s latencí do 300 ms
  • Generování audia o délce až 10 hodin v jednom požadavku
  • Per-word timestamps pro synchronizaci textu se zvukem
  • 48 hlasů v 8 jazycích
  • WebSocket endpoint pro simultánní streaming audia i časových značek
  • REST API s ukázkami kódu pro rychlou integraci

Časté dotazy

Kolik znaků lze využít zdarma?

Bezplatný plán zahrnuje 250 000 znaků. Po jejich vyčerpání je možné pokračovat v placeném tarifu, jehož cena klesá s rostoucím objemem.

Co jsou per-word timestamps a k čemu slouží?

Per-word timestamps jsou časové značky přiřazené každému slovu ve vygenerovaném audia – obsahují čas začátku a konce výslovnosti. Využívají se například ke zvýrazňování právě čteného slova v aplikaci nebo pro titulkování.

Jak dlouhé audio lze vygenerovat v jednom požadavku?

Jeden API požadavek může vygenerovat audio o délce až 10 hodin.

Podporuje API real-time streaming?

Ano, přes WebSocket endpoint /streamWithTimestamps lze streamovat audio i timestamps současně v reálném čase. Latence prvního zvukového výstupu je do 300 ms.

Kategorie

AI novinky do e-mailu

Každý pátek 3 vybrané AI nástroje, prompt týdne a to nejdůležitější ze světa AI — přehledně, česky a bez balastu.

Jeden z nejstarších pravidelných českých AI newsletterů.

Přidejte se k + čtenářům

Jednou týdně, v pátek. Žádný spam — odhlásíte se jedním klikem.

Podobné nástroje

Hledáte alternativu k Unreal Speech? Tady je 6 podobných nástrojů z kategorie Převod text-na-řeč.

Zobrazit všechny alternativy v kategorii Převod text-na-řeč