I když titulkům souvisejícím s umělou inteligencí obvykle dominují Microsoft nebo Google, ostatní technologické společnosti nechtějí v této oblasti zůstat pozadu. A nechce ani sociální gigant Meta, pod nějž patří například Facebook, který nyní představil AI audio nástroj s názvem Voicebox.
Meta v novém blogovém příspěvku odhalila, že pracuje na audio nástroji využívajícím generativní AI, který nese název Voicebox. Tento nástroj podle ní dokáže provádět různé úkoly související s vytvářením řeči, „pro které nebyl speciálně vytrénován prostřednictvím kontextového učení“. Konkrétně jde o tyto úkoly:
- Kontextový převod textu na řeč: používá zvukové ukázky dlouhé jen dvě sekundy, aby odpovídaly stylu zvuku a byly použity pro generování převodu textu na řeč.
- Úprava řeči a redukce šumu: nástroj dokáže znovu vytvořit část řeči, která byla přerušena hlukem, nebo nahradit chybně vyřčená slova, aniž by bylo nutné je znovu nahrávat.
- Přenos stylů mezi jazyky: nástroj může vzít vzorek řeči a pasáž textu a vytvořit čtení textu v angličtině, francouzštině, němčině, španělštině, portugalštině nebo polštině.
- Rozličné vzorkování řeči: využívá různá data k vytváření řeči, která lépe odpovídá tomu, jak lidé mluví v šesti výše uvedených jazycích.
Meta říká, že Voicebox je součástí jejího výzkumu generativní umělé inteligence. Pokud jde o jeho využití, uvádí toto: „V budoucnu by víceúčelové generativní modely umělé inteligence, jako je Voicebox, mohly poskytnout přirozeně znějící hlasy virtuálním asistentům a nehráčským postavám v metavesmíru. Mohly by umožnit lidem se zrakovým postižením slyšet psané zprávy od přátel čtené umělou inteligencí v jejich hlasech, dát tvůrcům nové nástroje pro snadné vytváření a úpravu zvukových stop u videí a mnoho dalšího“.