Technologický gigant Google představil svůj nejnovější audio model určený pro okamžitý překlad mluveného slova – Gemini 3.5 Live Translate. Tento pokročilý model přináší zásadní posun v tom, jak lidé překonávají jazykové bariéry, a nabízí plynulý překlad typu speech-to-speech v téměř reálném čase.
Tradiční překladové systémy fungují na principu střídání (turn-by-turn) – uživatel musí domluvit, systém řeč zpracuje a teprve poté přehraje překlad. Gemini 3.5 Live Translate však funguje zcela odlišně. Zpracovává zvuk kontinuálně jako stream. Dokáže vyvažovat ideální poměr mezi okamžitým překladem a krátkým vyčkáním na kontext, aby byla zachována maximální přesnost. Výsledkem je nepřerušovaný, plynulý tok řeči, který drží krok s mluvčím.
Klíčové vlastnosti modelu
Podpora více než 70 jazyků: Oproti dřívějším limitům, které podporovaly v živém režimu jen hrstku jazyků, zvládá nový model přes 70 řečí. To umožňuje propojení ve více než 2 000 jazykových kombinacích v rámci jednoho setkání (překlad se již neomezuje pouze na kombinace s angličtinou).
- Zachování lidských emocí a tónu: Překlad není robotický. Model dokáže věrně replikovat intonaci, tempo řeči, výšku hlasu a celkový tón mluvčího, takže výsledný projev působí přirozeně.
- Automatická detekce jazyka: Systém dokáže sám rozpoznat vícejazyčné vstupy. Uživatelé tak nemusí ručně přepínat nastavení, když se v konverzaci střídají různé jazyky.
- Odolnost vůči hluku: Model je navržen tak, aby spolehlivě fungoval i v hlasitém a nepředvídatelném prostředí, jako jsou rušné ulice nebo konferenční sály.
Integrace a dostupnost
Nový model se začíná globálně rozšiřovat přímo v aplikaci Google Translate pro platformy Android i iOS. Pro uživatele systému Android se navíc spouští speciální listening mode. Ten umožňuje poslouchat překlad diskrétně přímo skrze sluchátko telefonu. Stačí si telefon přiložit k uchu jako při běžném hovoru a překládaný zvuk streamuje přímo k vám.
Všechny audio výstupy generované modelem Gemini 3.5 Live Translate v sobě obsahují technologii SynthID od Google DeepMind. Jde o digitální vodoznak, který je pro lidské ucho nepostřehnutelný, ale umožňuje spolehlivě identifikovat, že zvuk byl vytvořen umělou inteligencí. Google tímto krokem zvyšuje transparentnost a snižuje riziko zneužití technologie.
Gemini 3.5 Live Translate mi zní jako naprostá technologická pecka, která konečně bourá ty nejotravnější jazykové bariéry. Už žádné trapné ticho a čekání, až telefon přelouská větu po větě. Osobně se neuvěřitelně těším, až tuhle novinku vytáhnu z kapsy a vyzkouším přímo v akci na blížící se dovolené v zahraničí – ať už při smlouvání na místních trzích, nebo při objednávání večeře v zapadlé rodinné restauraci, kde angličtina zkrátka nestačí. Budoucnost cestování bez slovníků je zjevně zase o krok blíž.