Unreal Speech

FreemiumPřevod text-na-řeč

Unreal Speech je API pro převod textu na řeč, které nabízí rychlý streaming, 48 hlasů v 8 jazycích a časové značky na úrovni jednotlivých slov.

O nástroji

Unreal Speech je textové TTS API zaměřené na nízkou cenu a vysoký výkon. Zvuk začne streamovat do 300 ms od požadavku, přičemž jeden požadavek může vygenerovat až 10 hodin audia. Služba je postavena na modelu Kokoro-82M a podle vlastního srovnání vychází výrazně levněji než konkurenční řešení jako ElevenLabs. API podporuje per-word timestamps – ke každému vygenerovanému slovu vrátí časový údaj začátku a konce, což umožňuje synchronizaci textu se zvukem (například zvýrazňování slov při přehrávání). Timestamps lze získat přes REST endpoint i přes WebSocket spojení pro real-time streaming audia i značek zároveň. Začít lze zdarma s limitem 250 000 znaků. Cena za další provoz klesá s rostoucím objemem využití. Nástroj je určen primárně pro vývojáře, kteří potřebují TTS integrovat do vlastních aplikací, a poskytuje ukázky kódu pro rychlý start.

Klíčové vlastnosti

Streaming audia s latencí do 300 ms
Generování audia o délce až 10 hodin v jednom požadavku
Per-word timestamps pro synchronizaci textu se zvukem
48 hlasů v 8 jazycích
WebSocket endpoint pro simultánní streaming audia i časových značek
REST API s ukázkami kódu pro rychlou integraci

Časté dotazy

Kolik znaků lze využít zdarma?

Bezplatný plán zahrnuje 250 000 znaků. Po jejich vyčerpání je možné pokračovat v placeném tarifu, jehož cena klesá s rostoucím objemem.

Co jsou per-word timestamps a k čemu slouží?

Per-word timestamps jsou časové značky přiřazené každému slovu ve vygenerovaném audia – obsahují čas začátku a konce výslovnosti. Využívají se například ke zvýrazňování právě čteného slova v aplikaci nebo pro titulkování.

Jak dlouhé audio lze vygenerovat v jednom požadavku?

Jeden API požadavek může vygenerovat audio o délce až 10 hodin.

Podporuje API real-time streaming?

Ano, přes WebSocket endpoint /streamWithTimestamps lze streamovat audio i timestamps současně v reálném čase. Latence prvního zvukového výstupu je do 300 ms.

Kategorie

Převod text-na-řeč

AI novinky do e-mailu

Každý pátek 3 vybrané AI nástroje, prompt týdne a to nejdůležitější ze světa AI — přehledně, česky a bez balastu.

Jeden z nejstarších pravidelných českých AI newsletterů.

Přidejte se k …+ čtenářům

Podobné nástroje

Hledáte alternativu k Unreal Speech? Tady je 6 podobných nástrojů z kategorie Převod text-na-řeč.

Fliki

Freemium

Fliki je AI generátor videí, který převádí text, scénáře nebo blogové příspěvky na videa s hlaso...

Otevřít detail99 %

Descript

Freemium

Descript je AI editor videa a podcastů, který umožňuje stříhat zvuk i video úpravou přepisu text...

Otevřít detail99 %

Mubert

Freemium

Generuje royalty-free hudbu pomocí AI z textových promptů nebo zadaných parametrů (nálada, délka...

Otevřít detail99 %

TTSMaker

Zdarma

Převádí text na mluvené slovo pomocí AI hlasů. TTSMaker je bezplatný online nástroj pro syntézu...

Otevřít detail98 %

Uberduck

Placené

Uberduck je platforma pro AI syntézu hlasu, která generuje řeč, zpěv a rap z textu a umožňuje kl...

Open source

Otevřít detail98 %

Eleven Labs

Freemium

Převádí text na přirozeně znějící řeč a klonuje hlasy pomocí AI. ElevenLabs je platforma pro syn...

Otevřít detail98 %

Zobrazit všechny alternativy v kategorii Převod text-na-řeč