Нейросеть DALL-E: что это, примеры изображений, перспективы технологии
Друзья, наверняка вы уже слышали о нейросети под название DALL-E (DALL·E, DALLE, Dall E) и даже видели картинки, созданные этим искусственным интеллектом. В этой статье хочу подробно рассказать о данной разработке, а также о том, почему некоторые разочаровываются в возможностях DALL-E после личного опыта. Мол, получается, что на тестовых картинках всё замечательно и красиво, а по факту выходит совсем иное.
- Что такое DALL-E? Принцип работы нейросети
- DALL-E 2 — эволюция искусственного интеллекта
- Чем отличается нейросеть DALL-E 2 от DALLE?
- Как попробовать DALL-E 2?
- Dalle Mini (Dalle Mani) – ИИ с открытым исходным кодом
- ruDALL-E – DALL·E на русском?
- Применение нейросети DALL-E
Что такое DALL-E? Принцип работы нейросети
DALL-E – нейронная сеть, которая способна создавать уникальные изображения из текстового описания. Работает это так: вы пишете, к примеру «Кот катается на скейтборде в лесу», а нейросеть, анализируя эту информацию, выдает вот такую картинку:
ВАЛЛ·И. Ева спасает Валли (WALL·E) 2008 [MultTime]
Самое примечательное, что DALLE в своем творчестве (иначе назвать это даже невозможно) использует не только известные ей и нам предметы, но и способна создавать абсолютно новые комбинации, производя на свет несуществующие в природе объекты.
Как видим, не зря разработчики данной нейронки вложили в её алгоритм аж 12 миллиардов различных параметров (комбинаций слов и пикселей) на базе GPT-3 (третье поколение алгоритма обработки естественного языка), которые она способна комбинировать между собой. Кстати, насчет разработчиков…
Создателем DALL-E является американская компания OpenAI, одним из основателей которой является никто не иной как Илон Маск. Данная компания ставит своей задачей разработку революционных технологий в области искусственного интеллекта. Как видим, пока это удаётся ей вполне успешно 🙂 Подробнее работе нейросети можно узнать из блога OpenAI
Технология DALL·E очень сложна. Я прочитал с десяток различных статей на эту тему, и никто так и не смог доходчиво (лично для меня) объяснить как принцип работы этой нейросети. Все в один голос утверждают, что простыми словами объяснить это невозможно, а следовательно, не стоит и пытаться. Мол, это чудо, и воспринимайте его как есть 🙂
Более того, результаты, выдаваемые DALLE, оказались настолько фантастически качественными, что разработчики и сами не ожидали такого от своей нейронки! В какой-то момент времени они даже заметили, что нейросеть создала элементы своего собственного языка, которым пытается общаться с самими разработчиками!
ВАЛЛ·И — смысл, который вы упустили
Так, ни с того ни с сего, DALL-E начала выдавать вместе с генерируемыми ею картинками какую-то «тарабарщину» — комбинацию букв и слов, которая не встречается ни в одном языке. Но если разработчики вводили ей эти фразы в качестве исходных данных, то нейросеть их вполне понимала и выдавала логически связанные с ними картинки.
К примеру, словосочетание «Apoploe vesrreaitais» означает птиц, а фраза «Contarra ccetnxniams luryca tanniounons» подразумевает под собой жуков или насекомых-вредителей. При совмещении этих понятий одним предложением в запросе нейросеть выдавала птиц, поедающих насекомых 🙂
DALL-E 2 — эволюция искусственного интеллекта
В 2022 году разработчики из OpenAI анонсировали улучшенную нейросеть DALL-E 2, созданную на основе предшественницы. Эта нейронка способна создавать просто невероятные фотореалистичные изображения всего лишь по заданным фразам и целым предложениям. Только посмотрите на что она способна!
DALL·E 2 может работать в трех режимах:
- Генерировать картинку с нуля.
- Генерировать новые вариации имеющейся картинки.
- Дорисовывать части картинки.
Последний режим в буквально смысле ошарашивает! Только посмотрите как DALLE 2 «додумывает» недостающие фрагменты известных нам картин, создавая таким образом более целостный образ:
Если вы вдруг не поняли, то в приведенных парах сверху будет оригинал, а снизу — работа DALLE-2. Видео, где вы своими глазами увидите другие вариации приведенных выше картин, а также некоторых других:
Кстати фоновая музыка, звучащая в этом ролике, была создана мной буквально за пару минут при помощи сервиса Mubert.
Чем отличается нейросеть DALL-E 2 от DALLE?
Среди преимуществ DALL-E 2 над первой версией нейронки можно выделить следующие:
- DALL-E 2 создает гораздо более реалистичные изображения, с лучшим качеством. Финальный результат выдается оператору быстрее.
- Может выполнять различные процессы редактирования фотографий на изображении. Например, DALL·E 2 можно использовать для добавления объектов в определенную область изображения с тенями, отражениями и текстурами, уже учтенными искусственным интеллектом.
- Лучше понимает глобальные сцены, а также лучше распознает объекты на изображении и их взаимосвязь.
- Способна воспроизводить изображения в разных стилях, создавая качественно различные вариации одной и той же картинки.
- DALL-E 2 позволяет добавить еще одно изображение к оригиналу, а нейросеть объединит изображения и сгенерирует из них новую вариацию.
Как попробовать DALL-E 2?
Инженеры из OpenAI прекрасно осознают революционность своей разработки и к чему может привести её бесконтрольное применение в массах. Взять, к примеру, ту же технологию дипфейков.
Поэтому, несмотря на то что со временем OpenAI собирается выложить код DALL-E в открытый доступ, сейчас попробовать нейросеть можно только по приглашениям, записавшись в лист ожидания. По состоянию на май 2022 более 600 человек из «простых смертных» имеют доступ к нейросети.
Вы также можете подать заявку на получение доступа к DALL·E 2 по этой ссылке: https://labs.openai.com/waitlist Проверьте сами, а вдруг никакого DALLE 2 не существует, а есть большая команда художников, запертая в душном офисе, которая периодически выкладывает свои творения под видом результата творчества искусственного интеллекта 🙂
Ну а пока доступа у вас нет, рекомендую подписаться на инстаграм openaidalle, где разработчики регулярно делятся классными шедеврами кисти искусственного интеллекта.
Dalle Mini (Dalle Mani) – ИИ с открытым исходным кодом
Dall-E mini — это программа искусственного интеллекта для преобразования текста в изображение, которая получила свое название от оригинального Dall-E. Команда энтузиастов-разработчиков этой мини-версии пытается воспроизвести результаты OpenAI с помощью модели с открытым исходным кодом.
Этот вариант нейросети может попробовать любой желающий по ссылке: https://huggingface.co/spaces/dalle-mini/dalle-mini
Помните, в начале статьи я упомянул, что некоторые ожидали от DALL-E 2 очень многого (судя по картинкам, выдаваемым разработчиками), а по факту немного разочаровались в нейросети? Так вот это благодаря тому, что оригинального DALL·E 2 нет в открытом доступе, а Dall-E mini выдаёт, честно говоря, весьма посредственные результаты.
Общий смысл нейросеть безусловно угадывает, но реализация… Впрочем, будем надеяться, что это всё поправимо в будущем.
Пользуясь Dall-E mini, почти все думают, что это и есть оригинальная разработка OpenAI, но это не так! Что Гугл, что Яндекс почему-то не выдают ссылки на официальный сайт Dall-E 2 по соответствующим запросам, а дают ссылки на Dalle Mini, Dalle Mani, ruDALL-E и прочие аналогичные разработки, которые просто на порядки хуже оригинала по выдаваемому результату.
Поэтому и вы не ждите от DALL-E mini чего-то сверхъестественного. Вот пример того, на что способен его искусственный интеллект:
Запрос для генерации картинки надо вводить на английском языке, время создания изображения может занимать до 5 минут.
ruDALL-E – DALL·E на русском?
ruDALL-E, как я упомянул ранее, является одной из альтернативных разработок, стремящихся воспроизвести результаты оригинальной нейросети от OpenAI. Прямое участие в ней принимали команды Sber AI, SberDevices, Самарского университета, AIRI и SberCloud.
Плюсом ruDALL-E является возможность вводить текстовый запрос на русском языке. Ну а результат вы можете оценить сами.
В настоящее время в open source доступны четыре модели генератора:
- ruDALL-E Malevich (XL),
- Sber VQ-GAN,
- ruCLIP Small
- Super Resolution (Real ESRGAN)
Подробно о ruDALL-E можно прочитать на Хабре в блоге компании Сбер.
Применение нейросети DALL-E
Технология преобразование текста в изображения носит поистине революционный характер, который в прямом смысле перевернет многие области. Возьмем, к примеру, художников-иллюстраторов. Если раньше для создания иллюстраций в художественной книге надо было платить за это художнику, то сейчас это можно делать при помощи нейросети совершенно бесплатно. Просто введите отрывок текста в DALL·E, и нейросеть выдаст вам с десяток прекрасных иллюстраций.
Блогерам, веб-мастерам, периодическим изданиям, СМИ и пр. теперь незачем платить за уникальные картинки на фотостоках к своим статьям и публикациям. Буквально за несколько минут можно сгенерировать с десяток отличных картинок абсолютно на любую тему!
Известный журнал Cosmopolitan в одном из своих свежих номеров использовал для иллюстрации обложки картинку, созданную в DALL-E 2. Это прецедент, который несомненно войдет в тренд и послужит громадным стартом применения нейросетей в массмедиа.
Наконец, генератор текста в изображение DALL·E 2 – это отличный пример того, как искусственный интеллект продолжает развиваться в наше время.
- iPiccy — онлайн размытие фона на фотографии
- Как сделать комикс
- Stable Diffusion – нейросеть генерации изображений по описанию
- InVideo – бесплатный онлайн редактор видео без водяных знаков
- Как раскрасить черно-белое фото – 5 онлайн сервисов
Понравилось? Поделитесь с друзьями!
Сергей Сандаков, 42 года. С 2011 г. пишу обзоры полезных онлайн сервисов и сайтов, программ для ПК. Интересуюсь всем, что происходит в Интернет, и с удовольствием рассказываю об этом своим читателям.
Источник: webtous.ru
Wally — программа для создания текстур
Wally — универсальная программа для работы с текстурами. Программа создает WAD файлы, которые использует движок в CS 1.6.
В WAD файлах хранятся все текстуры, которые вы видите в картах. На многих картах используются стандартные текстуры, но более опытные мапперы для того, чтобы сделать свою карту более эффектной, создают свои собственные текстуры. Создание текстур может заключаться не только в полной прорисовки какого-либо изображения с нуля, но и в том чтобы «подогнать» уже готовые изображения под нужным размер и поместить их в WAD файл.
Если вы хотите создавать свои текстуры для карт Counter-Strike 1.6, то для начала нужно скачать Wally и воспользоваться простой инструкцией ниже.
У Wally есть много функций, но мы будем использовать самый оптимальный способ для конвертирования уже готовых изображений в WAD файл. Для того чтобы не затрачивать много времени снизу вы можете скачать уже готовый чистый WAD файл, в который мы будем помещать наши текстуры. Программа не требует установки, поэтому просто откройте архив и перетащите папку из архива в удобное вам место.
Как работать с программой Wally:
- Для начала нам нужно создать свою текстуру, поэтому выбирайте нужную вам картинку (текстуру песка, дороги, дома и т.д.).
- Измените размер вашей картинки в 240х240 и сохраните.
- Теперь открываем программу Wally и выбираем в меню «File» => «Open» наш чистый WAD-файл.
- Перетаскивайте вашу картинку в программу и сохраняйте.
- Текстура создана!
Примечания и советы:
- В WAD файле может содержаться много картинок, но размер WAD файла не должен превышать 4МБ. Если вам нужно больше картинок, то лучше использовать 2 WAD файла.
- Многие используют текстуры размером 256х256, но текстуры 240х240 намного оптимальнее, так как не создают дополнительные полигоны. А как известно: чем больше полигонов, тем больше вероятность, что карта будет лагать. Используя текстуры размером 240х240 вы одновременно оптимизируете свою карту.
Z Скачать программу Wally Размер: 870,57 Kb , уже скачали: 3610
Z Скачать чистый WAD Размер: 17,85 Kb , уже скачали: 1002
На нашем сайте выложена одна из лучших сборок CS 1.6, которую уже скачали бесплатно и используют многие мапперы. Присоединяйся и ты!
Источник: cs16portal.net
Что такое » wall-e.exe » ?
В нашей базе содержится 2 разных файлов с именем wall-e.exe . You can also check most distributed file variants with name wall-e.exe. Чаще всего эти файлы принадлежат продукту WALL-E. Наиболее частый разработчик — компания Asobo Studio. Самое частое описание этих файлов — Disney-Pixar WALL-E. Это исполняемый файл.
Вы можете найти его выполняющимся в диспетчере задач как процесс wall-e.exe.
Подробности о наиболее часто используемом файле с именем «wall-e.exe»
Продукт: WALL-E Компания: Asobo Studio Описание: Disney-Pixar WALL-E Версия: 1.0.0.1 MD5: f3b8e2338e27594bc10c4039f1c5556d SHA1: 5f557e67c830453d124348a85730a28a6421c37a SHA256: f6d11a6424bc16fefea87405998a1a6ae9946a8d2a3fb258f1fae7534a554fa5 Размер: 11085072 Папка: %PROGRAMFILES%THQDisney-PixarWALL-EWALL-E ОС: Windows XP Частота: Низкая
Проверьте свой ПК с помощью нашей бесплатной программы
System Explorer это наша бесплатная, удостоенная наград программа для быстрой проверки всех работающих процессов с помощью нашей базы данных. Эта программа поможет вам держать систему под контролем.
Процесс «wall-e.exe» безопасный или опасный?
Последний новый вариант файла «wall-e.exe» был обнаружен 3864 дн. назад.
Комментарии пользователей для «wall-e.exe»
У нас пока нет комментариев пользователей к файлам с именем «wall-e.exe».
Добавить комментарий для «wall-e.exe»
Для добавления комментария требуется дополнительная информация об этом файле. Если вам известны размер, контрольные суммы md5/sha1/sha256 или другие атрибуты файла, который вы хотите прокомментировать, то вы можете воспользоваться расширенным поиском на главной странице .
Если подробности о файле вам неизвестны, вы можете быстро проверить этот файл с помощью нашей бесплатной утилиты. Загрузить System Explorer.
Проверьте свой ПК с помощью нашей бесплатной программы
System Explorer это наша бесплатная, удостоенная наград программа для быстрой проверки всех работающих процессов с помощью нашей базы данных. Эта программа поможет вам держать систему под контролем. Программа действительно бесплатная, без рекламы и дополнительных включений, она доступна в виде установщика и как переносное приложение. Её рекомендуют много пользователей.
Источник: systemexplorer.net
DALL·E от OpenAI: Генерация изображений из текста. Один из важнейших прорывов ИИ в начале 2021 года
Пару дней назад мы подводили ИИ итоги 2020-го года в мире машинного обучения. 2021-й год только начался, но мы определенно видим одну из важнейших работ в области ИИ текущего года.
Итак, исследователи в области искусственного интеллекта из OpenAI создали нейронную сеть под названием DALL·E, которая генерирует изображения из текстового описания на естественном языке.
Если тебе интересно машинное обучение, то приглашаю в «Мишин Лернинг» — мой субъективный телеграм-канал об искусстве глубокого обучения, нейронных сетях и новостях из мира искусственного интеллекта.
DALL·E представляет собой версию GPT-3 с 12 миллиардами параметров, обученную генерировать изображения из текстовых описаний на датасете из пар текст-изображение. Исследователи обнаружили, что DALL·E обладает огромным репертуаром генеративных возможностей, включая возможность создания антропоморфных животных и других необычных объектов, комбинирующих совершенно нетривиальные свойства, например «кресло в форме авокадо.»
Можно сказать, что уже были все предпосылки к созданию DALL·E: прошлогодний триумф GPT-3 и успешное создание Image GPT сети, способной к генерации изображений на основе текста, использующей языковую модель трансформер GPT-2. Все уже подходило к тому, чтобы создать новую модель, взяв в этот раз за основу GPT-3. И теперь DALL·E показывает невиданные доселе чудеса манипулирования визуальными концепциями с помощью естественного языка!
Как и GPT-3, DALL·E — это языковая модель-трансформер, принимающая на вход текст и изображение, как последовательность размером до 1280 токенов. Модель обучена максимизировать правдоподобие при генерации токенов, следующих один за другим.
Также, сотрудники из openai выразили озадаченность тем, что уровень реалистичности и результаты работы современных генеративных моделей могут оказать сильное влияние на общество. И опасаются за возможные неоднозначные социальные и экономические последствия использования подобных технологий.
Давайте посмотрим на примеры, которые говорят сами за себя. Исследователи утверждают, что не использовали ручной «cherry picking». Примерами являются изображения, полученные при помощи DALL·E, в которых используются 32 лучших примера из 512-ти сгенерированных, отобранных нейросетью нейронного ранжирования CLIP, созданную теми же OpenAI.
Text: a collection of glasses sitting on the table
Забавно, что алгоритм способен к мультимодальности, и справляется с неоднозначностью слова glasses в английском языке.
Text: an emoji of a baby penguin wearing a blue hat, red gloves, green shirt, and yellow pants
DALL·E может не только генерировать изображение с нуля, но и регенерировать (достраивать) любую прямоугольную область существующего изображения, вплоть до нижнего правого угла изображения, в соответствии с текстовым описанием. В качестве примера за основу взяли верхнюю часть фотографии бюста Гомера. Модель принимает на вход это изображение и текст: a photograph of a bust of homer
Text: a photograph of a bust of homer
Особенно поражает то, что DALL·E выучил исторический и географический контекст. Модель способна к обобщению тенденций в дизайне и технологиях. Вот пример того, как DALL·E генерирует телефонные аппараты разных десятилетий двадцатого века.
Text: a photo of phone from the .
DALL·E попросили сгенерировать изображение по следующему описанию: «гостиная с двумя белыми креслами и картиной Колизея, картина установлена над современным камином». Как оказалось DALL·E может создавать картины на самые разные темы, включая реальные локации, такие как «Колизей», и вымышленных персонажей, таких как «йода». Для каждого объекта DALL·E предлагает множество вариантов. В то время как картина почти всегда присутствует на изображении, DALL·E иногда не может нарисовать камин или правильное количество кресел.
Text: a living room with two white armchairs and painting of the colosseum. the painting is mounted above a modern fireplace
Название модели DALL·E (DALL-E, DALL E) является словослиянием имени художника Сальвадора Дали и робота WALL·E от Pixar. Вышел такой своеобразный Вали-Дали. Вообще в мире ИИ «придумывание» таких оригинальных названий — это некий тренд. Что определенно радует, и делает эту область еще более оригинальной.
Для пущего сюрреализма и оправдания своего названия DALL·E «попросили» сгенерировать животных, синтезированных из множества понятий, включая музыкальные инструменты, продукты питания и предметы домашнего обихода. Хотя это не всегда удавалось, исследователи обнаруживали, что DALL·E иногда принимает во внимание формы двух объектов при решении о том, как их объединить. Например, когда предлагается нарисовать «улитку-арфу».
Text: a snail made of harp
Вывод
DALL·E — это декодер-трансформер, который принимает и текст, и изображение в виде единой последовательности токенов (1280 токенов = 256 для текста + 1024 для изображения) и далее генерирует изображения авторегрессивном режиме. По-видимому, авторегрессивный режим работы трансформера создает дискретную репрезентацию в разрешении 32х32, после чего VQVAE предобученный энкодер-декодер «завершает генерацию» до разрешения 256×256. Оговорюсь, что последнее предложение — это мое предположение, нужно подождать выхода самого пейпера.
Что можно сказать? Наступает эра «великого объединения» языковых моделей, компьютерного зрения и генеративных сетей. То что мы видим сейчас, уже поражает воображение своими результатами, не говоря уже о том, насколько подобные подходы могут изменить процесс генерации контента.
Как будет возможность, подготовлю уже технический разбор самой модели DALL·E, учитывая, что ребята из openai обещают предоставить более подробную информацию об архитектуре и обучении модели в ближайшее время.
Полезные ссылки
Чтобы сделать публикацию еще более полезной, я добавил образовательные материалы, которые могут быть интересны начинающим и продолжающим свой путь в мир машинного обучения:
Ну вот и все! Надеюсь, что материал оказался полезным. Спасибо за прочтение!
Что ты думаешь о DALL·E и подобных генеративных нейронных моделях, способных создавать визуальный контент по текстовому описанию? Где может быть полезна такая технология? Насколько тебя впечатлили результаты? Давай обсудим в комментариях.
- Python
- Программирование
- Алгоритмы
- Машинное обучение
- Искусственный интеллект
Источник: habr.com