Wie DALL-E KI verwendet, um Bilder aus Textbeschreibungen zu generieren

December 03, 2021
ImTechnik Künstliche Intelligenz

click fraud protection

DALL-E ist ein Künstliche Intelligenz (KI)System, das darauf trainiert ist, aus beschreibenden Texten außergewöhnlich detaillierte Bilder zu bilden. Es zeigt bereits vielversprechende Ergebnisse, aber seine Verhaltensfehler deuten darauf hin, dass die Nutzung seines Algorithmus für praktischere Anwendungen einige Zeit in Anspruch nehmen kann. Die Text-to-Image-Software ist die Idee einer gemeinnützigen KI-Forschungsgruppe OpenAI.

Das Unternehmen wurde von zahlreichen Tech-Visionären gegründet, darunter Elon Musk, CEO von Tesla und SpaceXund ist verantwortlich für die Entwicklung verschiedener Deep-Learning-KI-Tools. Einer davon ist der Generative Pre-Trained Transformer 3, eine KI, die Nachrichten oder Essays in einer Qualität generieren kann, die von Stücken, die von echten Menschen geschrieben wurden, kaum zu unterscheiden ist. GPT-3 eignet sich auch gut für andere Anwendungen, z interaktiver KI-Chatbot.

Jetzt arbeitet OpenAI an einer weiteren GPT-3-Variante namens DALL-E, nur diesmal mit mehr Betonung darauf, künstlich gerenderte Bilder komplett von Grund auf neu zu erstellen, aus Textzeilen. Laut seiner

Blogeintrag, der Name wurde abgeleitet von der Kombination von Disney Pixars WALL-E und der berühmte Maler Salvador Dali, der auf seine beabsichtigte Fähigkeit verweist, Worte mit unheimlicher maschinenartiger Präzision in Bilder zu verwandeln. Die KI ist in der Lage, komplizierte Sätze in Bilder zu übersetzen "Plausible Wege." DALL-E nimmt Text und Bild als einen einzigen Datenstrom und wandelt sie mithilfe eines Datensatzes, der aus Text-Bild-Paaren besteht, in Bilder um. OpenAI behauptet, dass DALL-E in der Lage ist zu verstehen, was ein Text impliziert, auch wenn bestimmte Details nicht erwähnt werden, und dass es in der Lage ist, plausible Bilder zu generieren, indem „die Lücken ausfüllen“ der fehlenden Details.

DALL-E: Vielversprechende KI-Anwendungen, aber immer noch mit Einschränkungen

KI-Algorithmen neigen dazu, ins Stocken zu geraten wenn es um die Generierung von Bildern aufgrund von Fehlern in den Datensätzen geht, die in ihrem Training verwendet wurden. DALL-E hat jedoch nicht nur praktische Gegenstände, sondern auch abstrakte Konzepte sinnvoll umgesetzt. Zum Beispiel zeigte die KI in einem Text, der ein Wasserschwein in einem Feld bei Sonnenaufgang beschreibt, überraschend logische Argumente von Rendern von Bildern des Motivs, das seinen Schatten wirft, ohne dass dieses spezielle Detail in der Text. Es war sogar in der Lage, abstrakte, imaginäre Konzepte zum Leben zu erwecken, wie z. B. eine Schnecke mit Harfenstruktur von den gewölbten Teil der Harfe mit der Rundung des Schneckenhauses in Verbindung bringen und beide Elemente kreativ zu einem einzigen kombinieren Konzept.

DALL-E neigt jedoch dazu, mit längeren Textfolgen überfordert zu werden, und wird mit zunehmender Beschreibung weniger genau. Die KI fällt auch kulturellen Stereotypen zum Opfer, wie etwa der Verallgemeinerung von chinesischem Essen als einfache Knödel. Natürlich gibt es, wenn es einmal perfektioniert ist, eine Fülle von Anwendungen für ein solches Tool, von Marketing- und Designkonzepten bis hin zur Visualisierung von Storyboards aus Handlungszusammenfassungen. Vielleicht könnten KI-Algorithmen wie DALL-E bald sogar besser als Menschen darin sein, Bilder auf die gleiche Weise zu zeichnen wie sie hat uns in Luftkämpfen besiegt.

Quelle: OpenAI

Dune Movie Glossar & Terminologieleitfaden

Über den Autor