Kā DALL-E izmanto AI attēlu ģenerēšanai no teksta aprakstiem

December 03, 2021
InTech Mākslīgais Intelekts

click fraud protection

DALL-E ir mākslīgais intelekts (AI)sistēma, kas ir apmācīta veidot īpaši detalizētus attēlus no aprakstošiem tekstiem. Tas jau rāda daudzsološus rezultātus, taču tā uzvedības nepilnības liecina, ka tā algoritma izmantošana praktiskākiem lietojumiem var aizņemt kādu laiku. Programmatūra teksta pārveidošanai attēlā ir bezpeļņas AI pētniecības grupas ideja OpenAI.

Uzņēmumu dibināja daudzi tehnoloģiju vizionāri, tostarp Tesla un SpaceX izpilddirektors Īlons Masks, un ir atbildīgs par dažādu padziļināti AI rīki. Viens no tiem ir Generative Pre-Trained Transformer 3 — mākslīgais intelekts, kas spēj ģenerēt ziņas vai esejas tādā kvalitātē, kādu ir gandrīz grūti atšķirt no patiesu cilvēku sarakstītām daļām. GPT-3 labi izmanto arī citās lietojumprogrammās, piemēram, atbildot uz jautājumiem, rakstot daiļliteratūru un kodējot, kā arī to izmanto citi uzņēmumi kā interaktīvs AI tērzēšanas robots.

Tagad OpenAI strādā pie cita GPT-3 varianta, ko sauc par DALL-E, tikai šoreiz ar lielāku uzsvaru uz mākslīgi renderētu attēlu veidošanu pilnīgi no nulles, no teksta rindiņām. Saskaņā ar tās

emuāra ieraksts, nosaukums tika iegūts, apvienojot Disney Pixar WALL-E un slavenais gleznotājs Salvadors Dalī, atsaucoties uz tā paredzēto spēju pārveidot vārdus attēlos ar neparastu mašīnu līdzīgu precizitāti. AI spēj pārvērst sarežģītus teikumus attēlos "ticami veidi." DALL-E uztver tekstu un attēlu kā vienu datu plūsmu un pārvērš tos attēlos, izmantojot datu kopu, kas sastāv no teksta un attēla pāriem. OpenAI apgalvo, ka DALL-E spēj saprast, ko teksts nozīmē pat tad, ja nav pieminētas noteiktas detaļas, un ka tas spēj ģenerēt ticamus attēlus, izmantojot "tukšo vietu aizpildīšana" trūkstošās detaļas.

DALL-E: daudzsološas AI lietojumprogrammas, taču joprojām ar ierobežojumiem

AI algoritmi mēdz klibot kad runa ir par attēlu ģenerēšanu apmācībā izmantoto datu kopu pārtraukumu dēļ. Tomēr DALL-E nāca klajā ar saprātīgiem ne tikai praktisku objektu, bet arī abstraktu jēdzienu pārveidojumiem. Piemēram, tekstā, kurā aprakstīta kapibara laukā saullēkta laikā, mākslīgais intelekts pārsteidzoši parādīja loģisku argumentāciju, renderējot attēlus, kuros objekts met ēnu, un šī konkrētā detaļa nav īpaši pieminēta tekstu. Tas pat spēja parādīt labu spriedumu, atdzīvinot abstraktus, iedomātus jēdzienus, piemēram, izveidojot arfas tekstūru gliemezi, saistīt arfas izliekto daļu ar gliemeža čaumalas izliekumu un radoši apvienot abus elementus vienā koncepcija.

Tomēr DALL-E mēdz būt pārņemts ar garākām teksta virknēm, taču tas kļūst mazāk precīzs, jo tiek pievienots vairāk aprakstu. AI kļūst par upuri arī kultūras stereotipiem, piemēram, ķīniešu ēdienu vispārināšanai kā vienkārši pelmeņus. Protams, kad tas ir pilnveidots, šādam rīkam ir daudz lietojumprogrammu, sākot no mārketinga un dizaina koncepcijām un beidzot ar sižeta plānu vizualizēšanu no sižeta kopsavilkumiem. Iespējams, AI algoritmi, piemēram, DALL-E, drīzumā varētu būt pat labāki par cilvēkiem, zīmējot attēlus tāpat kā viņi pārspēja mūs gaisa suņu cīņās.

Avots: OpenAI

Dune Movie Glosārijs un terminoloģijas ceļvedis

Par autoru