Як DALL-E використовує AI для створення зображень із текстових описів

December 03, 2021
ВТехнологія Штучний інтелект

click fraud protection

DALL-E є штучний інтелект (AI)система, яка навчена формувати виключно деталізовані зображення з описових текстів. Він уже показує багатообіцяючі результати, але його поведінкові недоліки свідчать про те, що використання його алгоритму для більш практичних застосувань може зайняти деякий час. Програмне забезпечення для перетворення тексту в зображення є дітищем некомерційної дослідницької групи ШІ OpenAI.

Компанію заснували численні технічні провидці, в т.ч Генеральний директор Tesla і SpaceX Ілон Маск, і відповідає за розробку різноманітних інструменти глибокого навчання AI. Одним з них є Generative Pre-Trained Transformer 3, штучний інтелект, здатний генерувати новини або есе такої якості, яку майже важко відрізнити від творів, написаних реальними людьми. GPT-3 також добре підходить для інших додатків, таких як відповіді на запитання, написання художньої літератури та кодування, а також використовується іншими компаніями як інтерактивний чат-бот зі штучним інтелектом.

Зараз OpenAI працює над іншим варіантом GPT-3 під назвою DALL-E, тільки цього разу з більшим акцентом на формуванні штучно відтворених зображень повністю з нуля, з рядків тексту. Відповідно до його

допис у блозі, назва походить від поєднання Disney Pixar Уолл-І і відомий художник Сальвадор Далі, посилаючись на його передбачувану здатність перетворювати слова в зображення з неймовірною машинною точністю. ШІ здатний перекладати складні речення в картинки «правдоподібні способи». DALL-E сприймає текст і зображення як єдиний потік даних і перетворює їх у зображення за допомогою набору даних, який складається з пар текст-зображення. OpenAI стверджує, що DALL-E здатний зрозуміти, що означає текст, навіть якщо певні деталі не згадуються, і що він здатний генерувати правдоподібні зображення, «заповнення пробілів» з відсутніх деталей.

DALL-E: перспективні програми AI, але все ще з обмеженнями

Алгоритми ШІ мають тенденцію хитатися коли справа доходить до створення зображень через помилки в наборах даних, які використовуються під час навчання. Однак DALL-E придумав розумне відтворення не тільки практичних об’єктів, але навіть і абстрактних концепцій. Наприклад, у тексті, що описує капібару в полі на сході сонця, ШІ на диво показав логічні міркування, відтворення зображень об’єкта, що відкидає свою тінь, без цієї конкретної деталі текст. Він навіть зміг продемонструвати розсудливість у втіленні в життя абстрактних, уявних концепцій, таких як створення равлика з текстурою арфи. пов’язуючи арку арфи з вигином раковини равлики та творчо поєднуючи обидва елементи в єдиний концепція.

Однак DALL-E, як правило, перевантажується довшими рядками тексту, стаючи менш точними з додаванням більше опису. ШІ також стає жертвою культурних стереотипів, таких як узагальнення китайської їжі як простих пельменів. Звичайно, після того, як він буде вдосконалений, існує безліч застосувань для такого інструменту, від маркетингових і дизайнерських концепцій до візуалізації розкадрування з коротких сюжетів. Можливо, алгоритми штучного інтелекту, такі як DALL-E, незабаром будуть навіть кращими, ніж люди, малювати зображення так само, як вони переміг нас у повітряних повітряних боях.

Джерело: OpenAI

Глосарій і термінологічний посібник Dune Movie

Про автора