Co je DALL·E 2? Vysvětlení pro začátečníky s příklady

Cto Takoe Dall E 2 Ob Asnenie Dla Nacinausih S Primerami



Co je DALL·E 2?

DALL·E 2 je program umělé inteligence, který vytváří obrázky z textových popisů, které ve čtvrtek odhalila výzkumná společnost OpenAI.





Využívá 12miliardovou trénovací verzi modelu transformátoru GPT-3 k interpretaci vstupů přirozeného jazyka a generování odpovídajících obrázků. Například, když byla poskytnuta věta „černobílá fotografie malého psa“, vytvořila správně černobílý obrázek čivavy.





Systém není dokonalý – někdy vytváří obrázky, které se obtížně interpretují nebo jsou zcela mimo mísu. Například, když byl požádán o vytvoření obrázku „člověka jedoucího na jednokolce na laně přes sopku“, vytvořil (podle mého názoru krásný), ale zcela nesouvisející obrázek západu slunce nad vodou s malou postavou v popředí. .





Přesto jsou výsledky působivé a OpenAI říká, že DALL·E 2 „je prvním modelem umělé inteligence, který generuje obrázky z textových popisů, které mohou konkurovat kvalitě profesionálních lidských umělců“.



Systém byl trénován na datové sadě párů text-obrázek, skládající se z přibližně 1,3 milionu obrázků a titulků z internetu, které byly seškrábnuty a spravovány OpenAI. Tréninková data pak byla použita k doladění modelu GPT-3 tak, aby mohl generovat obrázky z textových popisů.

OpenAI říká, že systém dokáže generovat „kvalitní“ obrázky ze široké škály textových popisů, včetně těch, které jsou abstraktní, konkrétní nebo dokonce poetické.

Kromě příkladu Chihuahua zahrnují další příklady obrázků vytvořených DALL·E 2 správně vykreslený portrét Adolfa Hitlera, obrázek draka vyrobeného ze zeleniny a obrázek Mony Lisy vyrobený z toastu.



Systém je také schopen generovat obrazy věcí, které neexistují, jako je „floof“ (vymyšlené zvíře) nebo „tulpa“ (forma myšlení).

Celkově jsou výsledky působivé a OpenAI říká, že systém „otevírá nové možnosti pro generování obrázků z textových popisů“.

OD E2 Tento CLIP-systém převádí textové informace na vizuální informace. Toto je paradigma kodér-dekodér, což znamená, že když je poskytnut vstupní text, je nejprve převeden na strojový vstup, poté zpracován systémem a nakonec předán dekodéru, který převede zakódovaná data na obrázek.

Co je DALL E 2

Co je DALL·E 2?

Toto je nejnovější generace DALL·E, generativního jazykového modelu, který pomocí frází vytváří zcela nové vizuální efekty. DALL E 2 je obrovský 3,5V model, i když ne tak masivní jako GPT-3. Zajímavé je, že je také lehčí než jeho předchůdce (12B). Pokud jde o zarovnání popisu a fotorealismus, DALL·E 2 je o 70 % lepší než DALL·E 2 navzdory své větší velikosti.

DALL.E 2- vysvětlení pro začátečníky s příklady

Konkrétně DALL·E 2 je hierarchický model podmíněné syntézy textového obrazu, který kombinuje hluboké učení pro zpracování přirozeného jazyka s počítačovým viděním pro generování obrazu. Jeho cílem je vycvičit dva modely a tréninková sada se skládá ze spárovaných obrázků a popisů. První je a priori, že po zapsaném názvu lze trénovat generování vložení obrázku CLIP. Máme pak dekodér, který při vkládání CLIP obrázku (a popisku, pokud je k dispozici) dokáže vygenerovat natrénovaný obrázek.

DALLE 2 je trénován pomocí stovek milionů fotografií s popisky z internetu a některé z těchto obrázků jsou odstraněny a přemíchány, aby se změnilo to, co se model naučil. Získává více možností obrazu CLIP přílohy a pak to použít dekodér projít každou z nich. Poté vytvoří zajímavou směs všech těchto informací na základě vstupu uživatele.

Příklad DALL IS 2

Pojďme si zahrát malou hru, abychom porozuměli DALL·E. Pojďme si to rozdělit na další tři kroky.

  1. Představte si duhy, mraky a jednorožce létající na modré obloze. Představte si, jaký by mohl být obrázek ve vaší fantazii. Lidé jsou tím nejbližším, co máme k dokonalé analogii vloženého obrázku, a obrázek, který se vám právě objevil v hlavě, je toho dokonalým příkladem. O konečném produktu můžete jen hádat, ale máte dobrou představu o tom, co by mělo být zahrnuto. Apriorní model vede čtenáře od slov ve frázi k scéně v jeho představivosti.
  2. Nyní můžete začít kreslit. UnCLIP dělá to, že převádí váš mentální obraz do skutečného náčrtu. Nyní můžete přesně vytvořit další postavu ze stejného popisu, se stejnými základními statistikami, ale se zcela novým vizuálním stylem. DALL·E 2 může také generovat jedinečné obrázky z existujícího obrázku vloženého tímto způsobem.
  3. Věnujte pozornost náčrtu, který jste vytvořili. To se stane, když načrtnete popis 'jednorožec uprostřed mraků a duha stoupá proti nebi.' Nyní prozkoumejte obrázek a text a určete, co nejlépe ilustruje toho druhého (slunce, dům, strom atd.) a co nejlépe ilustruje předmět, styl, barvy atd. CLIP dělá kódování charakteristik. text a obrázky.

Nyní, když víme, co je DALL-E, přejděme k další části a pochopme jeho vlastnosti.

Spropitné: Jak vytvářet realistické obrázky pomocí služby DALL-E-2 AI

Funkce DALL E 2

Níže jsou uvedeny specifikace DALL·E 2.

  1. Variace
  2. Zbarvení
  3. Textové rozdíly

Promluvme si o nich podrobně.

jak vytvořit vizitky v aplikaci Word 2010

1] Variace

DALL·E 2 jde nad rámec pouhého překladu věty do obrazu. OpenAI může experimentovat s generativním procesem a produkovat různé výsledky pro daný podpis díky robustnímu vložení CLIP. To, co CLIP „vidí“ ve své „mysli“, je to, co považuje za důležité ze vstupu (zůstává stejné pro všechny obrázky) a co lze nahradit (což se u různých obrázků mění). Kdykoli je to možné, DALL·E 2 si zachová jak „smysluplné informace... tak estetické aspekty“.

2] Barvení

DALL·E 2 může upravovat stávající fotografie pomocí automatického vyplňování. V následujícím příkladu je levý obrázek původním obrázkem a prostřední a pravá fotografie mají prvek nakreslený na různých místech. DALL·E 2 odpovídá stylu Picture Style dalšímu prvku. Aktualizuje také textury a odrazy, aby odrážely nový prvek.

Číst : Co můžete dělat s ChatGPT

3] Rozdíly v textu

DALL·E 2 převádí obrázky pomocí textových rozdílů. DALL·E 2 má také pokročilé možnosti interpolace, které vám umožňují upravovat objekty. Jeden uživatel Twitteru dokázal „odmordenizovat“ svůj iPhone. twitter.com zkontrolovat to.

Pokud se vám tyto funkce líbí, vše, co musíte udělat, je přejít na openai.com a poté se zaregistrujte. K registraci si můžete vytvořit nový účet nebo použít své stávající účty Microsoft nebo Google. Jakmile to uděláte, získáte nějaké kredity zdarma, pokud chcete více, musíte za to zaplatit.

To jsou některé z funkcí DALL·E 2, má mnoho skvělých případů použití, nicméně vždy se doporučuje na nástroje AI příliš nespoléhat. Nejsou to totiž nic jiného než nástroje používané k provedení práce, nikdy nemohou nahradit emoční inteligenci člověka.

Přečtěte si také: Nejlepší Deepfake aplikace, software a webové stránky.

Co je DALL E 2
Populární Příspěvky