Wie DALL-E KI verwendet, um Bilder aus Textbeschreibungen zu generieren
DALL-E ist ein Künstliche Intelligenz (KI)System, das darauf trainiert ist, aus beschreibenden Texten außergewöhnlich detaillierte Bilder zu bilden. Es zeigt bereits vielversprechende Ergebnisse, aber seine Verhaltensfehler deuten darauf hin, dass die Nutzung seines Algorithmus für praktischere Anwendungen einige Zeit in Anspruch nehmen kann. Die Text-to-Image-Software ist die Idee einer gemeinnützigen KI-Forschungsgruppe OpenAI.
Das Unternehmen wurde von zahlreichen Tech-Visionären gegründet, darunter Elon Musk, CEO von Tesla und SpaceXund ist verantwortlich für die Entwicklung verschiedener Deep-Learning-KI-Tools. Einer davon ist der Generative Pre-Trained Transformer 3, eine KI, die Nachrichten oder Essays in einer Qualität generieren kann, die von Stücken, die von echten Menschen geschrieben wurden, kaum zu unterscheiden ist. GPT-3 eignet sich auch gut für andere Anwendungen, z interaktiver KI-Chatbot.
Jetzt arbeitet OpenAI an einer weiteren GPT-3-Variante namens DALL-E, nur diesmal mit mehr Betonung darauf, künstlich gerenderte Bilder komplett von Grund auf neu zu erstellen, aus Textzeilen. Laut seiner
DALL-E: Vielversprechende KI-Anwendungen, aber immer noch mit Einschränkungen
KI-Algorithmen neigen dazu, ins Stocken zu geraten wenn es um die Generierung von Bildern aufgrund von Fehlern in den Datensätzen geht, die in ihrem Training verwendet wurden. DALL-E hat jedoch nicht nur praktische Gegenstände, sondern auch abstrakte Konzepte sinnvoll umgesetzt. Zum Beispiel zeigte die KI in einem Text, der ein Wasserschwein in einem Feld bei Sonnenaufgang beschreibt, überraschend logische Argumente von Rendern von Bildern des Motivs, das seinen Schatten wirft, ohne dass dieses spezielle Detail in der Text. Es war sogar in der Lage, abstrakte, imaginäre Konzepte zum Leben zu erwecken, wie z. B. eine Schnecke mit Harfenstruktur von den gewölbten Teil der Harfe mit der Rundung des Schneckenhauses in Verbindung bringen und beide Elemente kreativ zu einem einzigen kombinieren Konzept.
DALL-E neigt jedoch dazu, mit längeren Textfolgen überfordert zu werden, und wird mit zunehmender Beschreibung weniger genau. Die KI fällt auch kulturellen Stereotypen zum Opfer, wie etwa der Verallgemeinerung von chinesischem Essen als einfache Knödel. Natürlich gibt es, wenn es einmal perfektioniert ist, eine Fülle von Anwendungen für ein solches Tool, von Marketing- und Designkonzepten bis hin zur Visualisierung von Storyboards aus Handlungszusammenfassungen. Vielleicht könnten KI-Algorithmen wie DALL-E bald sogar besser als Menschen darin sein, Bilder auf die gleiche Weise zu zeichnen wie sie hat uns in Luftkämpfen besiegt.
Quelle: OpenAI
Dune Movie Glossar & Terminologieleitfaden
Über den Autor