Google Veo vytváří 1 minutová videa v rozlišení 1080p vytvořená umělou inteligencí

Google Veo vytváří 1 minutová videa v rozlišení 1080p vytvořená umělou inteligencí

Google oznámil nový inovativní model umělé inteligence nazvaný „Veo“, který zvládne tvorbu videí, speciálně navržený tak, aby vyhovoval kreativním vizím uživatelů. Google také upgraduje svůj model generování obrázků a přináší jej na třetí generaci s Imagen 3.

Bard byl jedním z prvních studentů, kteří ve společnosti Google získali titul MBA v moderní umělé inteligenci. Tato verze byla poprvé vydána zhruba před rokem, přičemž v posledních měsících došlo k velkým změnám platformy. Jednou z největších změn byla kompletní změna názvu, přejmenování uživatelského nástroje umělé inteligence na Gemini, které se nyní rozšířilo po celém produktovém portfoliu společnosti s Gemini Nano v současných a připravovaných zařízeních a Gemini Pro.

Těsně před přejmenováním Barda na Gemini přidal Google možnost vyžadovat obrázky prostřednictvím konverzačního modelu založeného na umělé inteligenci. Pokud si objednáte fotografii krávy na lodi, přesně to ukážete, v jakémkoli stylu, který uznáte za vhodný. Tento proces podporuje Imagen 2, první verze, která se stala veřejně dostupnou.

formulář Google View

Google dnes oznamuje dva modely Creative Generation, Veo a Imagine 3. Veo je nejvíce vzrušující, protože je to něco, co publikum ještě nemohlo zažít. Model je speciálně navržen tak, aby generoval video, které rozumí vizuální sémantice a přirozenému jazyku, podobně jako jiné nedávné modely. Tento přístup k tvorbě videa přináší výsledky, které lze kreativně přizpůsobit konkrétním stylům.

Google poznamenává, že model Veo bude schopen porozumět „filmovému žargonu“ v uživatelských výzvách, jako jsou letecké snímky a časosběrné formáty. Veo je schopno vytvářet videa v rozlišení 1080p, která mohou trvat déle než minutu, což překonává současné modely, jako je Sora od OpenAI, která dosahuje maxima 60 sekund.

Veo staví na letech naší práce na generativních video modelech, včetně Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet a Lumiere – kombinující architekturu, zákony škálování a další nové techniky ke zlepšení kvality. A přesnost výstupů.

Google zve tvůrce a filmaře, aby si Veo vyzkoušeli a vytvarovali model tak, aby vyhovoval široké škále uměleckých stylů a případů použití.

READ  Dva muži dostanou práci v Amazon Japan jen proto, aby ukradli kopie Zeldy

Obrázek 3

Model Imagen také dostává velkou aktualizaci. Imagen 3 je umístěn jako „nejkvalitnější“ model převodu textu na obrázek od Googlu a nabízí některá vylepšení oproti modelu Imagen 2, který jsme viděli v Gemini a Bard.

O Imagen 3 se říká, že poskytuje vyšší úroveň detailů v obrazech bez mnoha vizuálních artefaktů ve generovaných obrazech. Obrázky jsou na požádání realističtější a živější.

Asi největším vylepšením je schopnost Imagen 3 zobrazovat text. To se stalo komickou slabinou u modelů pro převod textu na obrázek, jako je DALL-E a Adobe Firefly. Google staví nový model jako způsob, jak vytvářet personalizované obrázky s textem, jako jsou pohlednice nebo obrázky se zprávami. Jak dobře na tom bude textové zobrazení, se teprve uvidí, ale jedná se o slibné zlepšení.

Veo i Imagine 3 budou k dispozici pro použití v soukromém náhledu prostřednictvím VideoFX společnosti Google Labs. VideoFX použije SynthID, aby zajistil, že vytvořený obsah bude digitálně opatřen vodoznakem a bude vytvořen odpovědně.

Ti, kteří si chtějí nové modely vyzkoušet, se mohou přihlásit k odběru Prostřednictvím Google Queue.

FTC: K vydělávání příjmů používáme automatické přidružené odkazy. více.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *