Google včera zahájil svou vývojářskou konferenci I/O 2024, na které představil řadu novinek týkajících se umělé inteligence. Jednou z nich jsou nové generativní modely pro tvorbu obrázků a videí Imagen 3 a Veo. Co oba nástroje umějí?
Imagen 3 je podle Googlu jeho dosud nejpokročilejším AI modelem na generování obrázků z textu. Přesněji řečeno jeho dceřinky specializované na umělou inteligenci DeepMind. Je prý schopen vytvářet vizuály s neuvěřitelnými detaily, realistickým osvětlením a méně rušivými artefakty. Model má být také schopen lépe než předchozí modely Googlu na generování obrázků zpracovávat detaily z dlouhých promptů (příkazů).
Od včerejška je Imagen 3 k dispozici pro vybrané tvůrce jako soukromé preview v rámci nástroje ImageFX. Kromě toho bude k dispozici v několika verzích, z nichž každá bude optimalizována pro různé typy úloh, od generování rychlých náčrtů až po obrázky ve vysokém rozlišení.
Google vedle Imagen 3 představil i nový pokročilý generativní model na tvorbu videí Veo, za nímž taktéž stojí DeepMind. Společnost říká, že uživatelé budou moci vytvářet a upravovat více než minutu dlouhá videa v rozlišení 1080p v různých vizuálních stylech pomocí textových, obrazových nebo video promptů.
Introducing Veo: our most capable generative video model. 🎥
It can create high-quality, 1080p clips that can go beyond 60 seconds.
From photorealism to surrealism and animation, it can tackle a range of cinematic styles. 🧵 #GoogleIO pic.twitter.com/6zEuYRAHpH
— Google DeepMind (@GoogleDeepMind) May 14, 2024
Google tvrdí, že Veo se chlubí pokročilým porozuměním přirozenému jazyku a vizuální sémantice, díky čemuž prý zvládne vytvořit jakékoli video podle jakéhokoli typu promptu. Rozumí prý také filmovým a vizuálním technikám, jako je například časosběrný snímek. Veo je nyní pro vybrané tvůrce dostupný v rámci nástroje VideoFX, přičemž se má také objevit v YouTube Shorts a dalších produktech technologického giganta.