Πώς το DALL-E χρησιμοποιεί το AI για τη δημιουργία εικόνων από περιγραφές κειμένου

December 03, 2021
ΣεTech Τεχνητή νοημοσύνη

click fraud protection

Το DALL-E είναι ένα τεχνητή νοημοσύνη (AI)σύστημα που είναι εκπαιδευμένο να σχηματίζει εξαιρετικά λεπτομερείς εικόνες από περιγραφικά κείμενα. Δείχνει ήδη πολλά υποσχόμενα αποτελέσματα, αλλά τα κενά συμπεριφοράς του υποδηλώνουν ότι η χρήση του αλγορίθμου του για πιο πρακτικές εφαρμογές μπορεί να πάρει κάποιο χρόνο. Το λογισμικό κειμένου σε εικόνα είναι το πνευματικό τέκνο μιας μη κερδοσκοπικής ερευνητικής ομάδας τεχνητής νοημοσύνης OpenAI.

Η εταιρεία ιδρύθηκε από πολλούς οραματιστές της τεχνολογίας, μεταξύ των οποίων Ο CEO της Tesla και της SpaceX, Elon Musk, και είναι υπεύθυνος για την ανάπτυξη διαφόρων εργαλεία τεχνητής νοημοσύνης σε βάθος μάθησης. Ένα από αυτά είναι το Generative Pre-Trained Transformer 3, μια τεχνητή νοημοσύνη ικανή να παράγει ειδήσεις ή δοκίμια σε μια ποιότητα που είναι σχεδόν δύσκολο να διακρίνει κανείς από κομμάτια γραμμένα από πραγματικούς ανθρώπους. Το GPT-3 επίσης καλά σε άλλες εφαρμογές, όπως η απάντηση σε ερωτήσεις, η συγγραφή μυθοπλασίας και η κωδικοποίηση, καθώς και ότι χρησιμοποιείται από άλλες εταιρείες ως διαδραστικό chatbot AI.

Τώρα, το OpenAI εργάζεται σε μια άλλη παραλλαγή GPT-3 που ονομάζεται DALL-E, μόνο αυτή τη φορά με μεγαλύτερη έμφαση στο σχηματισμό εικόνων που έχουν αποδοθεί τεχνητά εντελώς από την αρχή, εκτός γραμμών κειμένου. Σύμφωνα με αυτήν ανάρτηση, το όνομα προήλθε από το συνδυασμό της Disney Pixar ΤΟΙΧΟΣ-Ε και τον διάσημο ζωγράφο Σαλβαδόρ Νταλί, αναφέροντας την προβλεπόμενη ικανότητά του να μετατρέπει λέξεις σε εικόνες με απίστευτη ακρίβεια που μοιάζει με μηχανή. Το AI είναι ικανό να μεταφράζει περίπλοκες προτάσεις σε εικόνες «εύλογοι τρόποι». Το DALL-E παίρνει κείμενο και εικόνα ως μια ενιαία ροή δεδομένων και τα μετατρέπει σε εικόνες χρησιμοποιώντας ένα σύνολο δεδομένων που αποτελείται από ζεύγη κειμένου-εικόνας. Το OpenAI ισχυρίζεται ότι το DALL-E είναι σε θέση να κατανοήσει τι υπονοεί ένα κείμενο ακόμη και όταν δεν αναφέρονται ορισμένες λεπτομέρειες και ότι είναι σε θέση να δημιουργήσει εύλογες εικόνες από «συμπληρώνω τα κενά» των λεπτομερειών που λείπουν.

DALL-E: Υποσχόμενες εφαρμογές τεχνητής νοημοσύνης, αλλά ακόμα με περιορισμούς

Αλγόριθμοι AI τείνουν να παραπαίουν όταν πρόκειται για τη δημιουργία εικόνων λόγω ελλείψεων στα σύνολα δεδομένων που χρησιμοποιούνται στην εκπαίδευσή τους. Ωστόσο, ο DALL-E κατέληξε σε λογικές αποδόσεις όχι μόνο πρακτικών αντικειμένων, αλλά ακόμη και αφηρημένων εννοιών. Για παράδειγμα, σε ένα κείμενο που περιγράφει ένα capybara σε ένα χωράφι την ανατολή του ηλίου, η τεχνητή νοημοσύνη εμφάνισε εκπληκτικά λογικό συλλογισμό από απόδοση εικόνων του θέματος που ρίχνουν τη σκιά του χωρίς αυτή η συγκεκριμένη λεπτομέρεια να αναφέρεται συγκεκριμένα στο κείμενο. Ήταν ακόμη σε θέση να επιδείξει καλή κρίση για να ζωντανέψει αφηρημένες, φανταστικές έννοιες, όπως η δημιουργία ενός σαλιγκαριού με υφή άρπας από συσχετίζοντας το τοξωτό τμήμα της άρπας με την καμπύλη του κελύφους του σαλιγκαριού και συνδυάζοντας δημιουργικά και τα δύο στοιχεία σε ένα ενιαίο έννοια.

Το DALL-E τείνει να κατακλύζεται με μεγαλύτερες σειρές κειμένου, ωστόσο, γίνεται λιγότερο ακριβές με την περισσότερη περιγραφή που προστίθεται. Η τεχνητή νοημοσύνη πέφτει επίσης θύμα πολιτισμικών στερεοτύπων, όπως η γενίκευση του κινέζικου φαγητού ως απλά ζυμαρικά. Φυσικά, μόλις τελειοποιηθεί, υπάρχει πληθώρα εφαρμογών για ένα τέτοιο εργαλείο, από ιδέες μάρκετινγκ και σχεδίασης μέχρι οπτικοποίηση σεναρίων από περιλήψεις πλοκών. Ίσως οι αλγόριθμοι τεχνητής νοημοσύνης όπως ο DALL-E να είναι σύντομα καλύτεροι από τους ανθρώπους στο να σχεδιάζουν εικόνες με τον ίδιο τρόπο που μας κέρδισε στις αερομαχίες.

Πηγή: OpenAI

Γλωσσάρι ταινίας Dune & Οδηγός ορολογίας

Σχετικά με τον Συγγραφέα