Картинки по описанию: как добиться лучшего результата от ИИ

Генерация картинок по описанию в нейронных сетях требует не только умения формулировать запросы. Надо понимать того, какие детали стоит включать и как конкретизировать вопросы.

? Важно помнить, что перегруженный запрос может запутать нейросеть, и вместо нужного ответа мы получим бессвязное сообщение

Как избежать подобных ситуаций и повысить эффективность взаимодействия с искусственным интеллектом — об этом и многом другом будет показано в этой статье.

Как составить правильный запрос к нейросети
Описание картинок в нейросети Midjourney

Как составить правильный запрос к нейросети

Если вы хотите максимально эффективно использовать нейронные сети и получать точные ответы, то важно научиться правильно формулировать запросы. Необходимо учитывать контекст, избегать излишней детализации и стараться быть ясными и лаконичными.

Только в таком случае мы сможем получить информацию, которая действительно нам нужна, без лишней путаницы и недопонимания

Для практического применения существуют сайты с готовыми формулировками запросов. В конце статьи вы найдете подборку таких сайтов для того, чтобы не терять времени на составление своих промтов. Те, кто хочет научиться составлять запросы самостоятельно, могут продолжить чтение.

Для эффективного взаимодействия с нейросетями на английском языке важно помнить, что они обучались на этом языке, поэтому лучше всего формулировать запросы именно на английском. При затруднениях с языком можно воспользоваться онлайн-переводчиками, и моя рекомендация — использовать DeepL, так как он оперирует нейросетью и может более точно уловить контекст, чем другие сервисы, такие как те, что от Яндекса и Google.

Помните также, что стоит избегать излишне длинных и подробных запросов, поскольку нейросеть может затеряться в деталях и дать менее качественный результат. Как правильно формулировать запрос для создания графических изображений?

Посмотрим на процесс генерации изображений на примере популярного сервиса Midjourney, который предлагает широкий спектр возможностей. В нашей статье также упоминались другие аналогичные платформы, где вы можете ознакомиться с будущими тенденциями в работе нейросетей с контентом.

Описание картинок в нейросети Midjourney

Создатели Midjourney предлагают следующие правила общения с нейросетью:

➡️ Тщательно формулировать конкретный и точный запрос;

➡️ Не использовать абстракции;

➡️ Для генерации конкретного места лучше использовать его точное название, а не обобщенное .К примеру, вместо «Известный символ Парижа» указать «Эйфелева башня»;

➡️ Избегать использования частиц «не», «кроме», «без» и аналогичных. К примеру вместо «Человек не идет», писать «Человек стоит»;

➡️ Разделять обширные запросы на несколько частей с использованием запятых или двойных двоеточий «::». К примеру, таким образом можно разделить запрос объекта, его стиля и уточняющих команд для нейросети;

➡️ Предоставлять точные цифры или запрашивать отдельные элементы;

Подготавливая материал, я выяснил, что архетипы могут быть использованы для создания изображений. Чаще всего это происходит, если не удается создать нужный вариант или позицию объекта. К примеру, вместо запроса: «человек с ружьем в лесу», лучше использовать термин «охотник», а вместо «человек в белом халате со стетоскопом » — «врач».

Если это также не срабатывает, то можно найти примеры нужных изображений в интернете, например, на Pinterest или фотобанках, и использовать их описания. Это поможет нейросети лучше понять идею, так как именно на подобных изображениях с описаниями она обучалась генерировать изображения.

➔ Начнем с создания объекта на примере нейросети DALL-E

Давайте начнем с задумки, какие объекты мы хотим увидеть на будущем изображении. Мы можем выбрать что-то типа кота, посылки, вертолета или колдуна. Нейросеть обладает огромным разнообразием вариантов изображений, которые она узнала из интернета, поэтому у нас есть огромный выбор.

Если вас интересует комбинация нескольких объектов, просто разделите их двойным двоеточием «::», и нейросеть сможет точно воспроизвести то, что вам нужно и не запутается. Такой подход позволит достичь уникальности и креатива в итоговых изображениях. Например, вы можете запросить изображение кота-супергероя.

Первый запрос а английском языке: ? «cat superhero in the city» — вполне адекватная картинка получилась.

Второй запрос на русском языке, очень подробный: «Город ожил, когда на его улицы вышел супергерой кот. Быстрые и виртуозные движения, сила и умение летать делали его настоящим защитником города. Маленький, но бесстрашный, он был готов бороться со злом и привнести мир и спокойствие жителям город. Он становился ненавистным для преступников, но любимым для всех детей и взрослых. Символ справедливости и добра, он оставался верен своей миссии — делать город безопасным и жизнерадостным местом»

Любым объектам можно придавать необычные роли или определять неожиданную роль, к примеру ,:Запрос: ? «Герои мультфильма Маша и Медведь в роли президента США»

Картинка по запросу "Маша и Медведь - президент США" — ? «Герои мультфильма Маша и Медведь в роли президента США»

Довольно странная интерпретация, по-видимому нейросеть еще плохо знакома с русским фольклором.

Запрос «Cheburashka from the Soviet cartoon, if he were a terminator»

Картинка по описанию "Чебурашка - терминатор" — ? «Cheburashka from the Soviet cartoon, if he were a terminator»

На этот запрос более или менее адекватная картинка по описанию получилась, чтобы не перепутали где кто, нейросеть даже знак равенства поставила.

Если хочется, чтобы фигур на изображении было три или четыре, пишите конкретно в запросе. К примеру, не несколько попугаев, а три попугая. Нужно учитывать, если субъектов на изображении будет больше одного, то могут быть неточности в деталях.

Запрос «Three parrots are sitting on a branch and looking into the sunset»

картинка по описанию в нейросети — ? «A hurricane, the wind blows into the field and bends the tree»

С попугаями нейросеть ничего не перепутала Вполне прилично получилось.

Больше внимания в описании нужно уделять точности и конкретике, иначе можно получить странную абстракцию.

➡️ Пример1 -—Запрос: «дует ветер» ветер ощущается, но трава почему-то сгибается в противоположную ветру сторону.

➡️ Пример2 — Запрос: «The wind is blowing» Здесь картина более правдоподобна.

➡️ Пример 3 — Запрос: «A hurricane, the wind blows into the field and bends the tree» А на этой картинке буря в самом разгаре.

Нейросети могут генерировать не только реальные объекты. Абстракции у них получаются даже лучше. К примеру неопределенное будущее или любовь. Ожидать высокого качества здесь не приходится, нейросеть может запутаться и нарисовать что-то несуразное. Для того чтобы получить реалистичное изображение, все же лучше добавить объекты. К примеру не просто любовь, а обнимающиеся парень и девушка на розовом фоне.

Такие картинки нейросеть сгенерировала по описанию на русском языке: «Любовь», Следующая по запросу: «A guy and a girl hug on a soft pink background». У нейросети часто бывают накладки с прорисовкой рук, но здесь получилось вполне прилично.

➔ Детализируем картинки по описанию

Для улучшения понимания нейросетью требуемого результата, необходимы специфические детали, иначе искусственный интеллект будет придумывать их самостоятельно. Это может привести к ошибочным и непонятным результатам. Размещение объектов и их важность на сцене — ключевые аспекты, которые стоит добавлять как дополнительные элементы. Существительные, глаголы и прилагательные могут быть использованы для придания изображению более живого описания.

Существительные определяют объект и его окружение, как, например, «автомобиль на стоянке». Глаголы, в свою очередь, позволяют показать действия, при этом выбор конкретных глаголов, таких как «стоит и ждет» вместо «ожидает», способствует более точному описанию сцены.

Для придания изображению живости и создания уникального контекста используются прилагательные. Например, прилагательное «мистический» придаст изображению загадочности, а «яркий» сделает его выразительным. Кроме того, прилагательное «экспрессивный» добавит в изображение динамику и эмоциональность, сделав его запоминающимся.

К примеру запрос: ? «В поле стоит старый деревянный дом. Рядом стоит одно большое дерево, одна скамейка. На скамейке сидит пожилой мужчина. Закат».

Пример1: Запрос ? «Old wooden house in the field :: There is one big tree nearby, one bench :: An elderly man is sitting on a bench :: Sunset
Первая попытка довольно удачная. Сделаем еще один вариант. Вполне прилично, но крона дерева больше напоминает облака, чем листья да и веток не видно. Первый вариант оказался удачнее.

? Важно учитывать размер описания. В Midjourney можно написать до 4000 символов, в DALL-E 2 — до 400 символов, у Stable Diffusion — до 75 слов

➔ Разберемся как задать стиль изображения

В нейросетевых базах хранятся множества изображений, отражающих различные художественные стили и жанры. Этот ресурс позволяет экспериментировать с созданием картинок в необычных сочетаниях: например, можно вдохновляться Ван Гогом и нуаром, а затем объединить все это в одном произведении в стиле Марка Шагала, окрашенном в атмосфере киберпанка.

Давайте рассмотрим примерный запрос: ? «Эйфелева башня в стиле нуар с элементами Ван Гога». Результат оказался удивительным.

Запрос «The Eiffel Tower in the noir style by Van Gogh»

Сложно ознакомиться со всеми стилями и жанрами, которые может использовать нейросеть Midjourney. Нужно много экспериментировать, чтобы получить результат, на который вы рассчитывали. Не нужно опускать руки, нейросеть все еще учится и чем чаще вы будете с ней общаться, тем быстрее она поймет чего вы от нее ожидаете.

➔ Как создать мудборд и что это такое

Изменив стиль, можно экспериментировать с фотографическими техниками, такими как освещение, формат изображения, параметры камеры и объектива. Освещение играет ключевую роль в создании настроения и эмоций на фотографии. Например, цветовая гамма может сделать снимок более мрачным или ярким, отражая разные эмоциональные состояния. Нейросеть показывает, как выглядит Эйфелева башня в ярком солнечном свете великолепного дня.

Картинки по описанию будут отличаться по стилистике по запросу «Объект в полдень с ярким солнечным освещением», или так: «Объект в хмурый и пасмурный день».
Определяем формат результата генерации. Дополнить описание можно запросом на готовое изображение в виде художественного произведения, арт-объекта, фото или скульптуры.

Множество вариантов настроек камеры и объектива существуют для творческой обработки изображений. Задание специфических параметров может кардинально изменить результат. Например, путем подачи определенных команд можно изменить характер съемки или применить fish eye эффект для креативных экспериментов. Также, возможно попросить систему создать изображение, как будто оно было сделано на объективе с фокусным расстоянием 9 мм, чтобы получить более реалистичный эффект.

Запрос ? «Car beach the sun is shining fisheye effect»
Для получения более реалистичной картинки в виде фотографии можно указывать фокус объектива, ISO , экспозицию, выдержку и дополнительные параметры, если вы профессионал.

? Для более точного определения стиля рекомендуется прикрепить ссылки на изображения, которые вызывают у вас интерес. Нейронная сеть сможет использовать их в процессе создания контента

➔ Как задать параметры изображения

По умолчанию изображения нейросеть создает в соотношении 1:1, т о есть квадратными. Существуют команды, которые можно указать перед генерацией, чтобы получить на выходе нужный формат картинки.

-‍-w — Ширина картинки. Число должно быть кратно кратно 64;
-‍-h — Высота картинки. Число должно быть кратно 64;
-‍-ar — Команда для указания не размеров, а соотношения сторон. Указываем желаемые цифры. К примеру, нужно ввести: -‍-ar 16:9, чтобы получить изображение с соотношением 16:9;
Чтобы указать требуемые размеры, придется указать эти цифры вместо х и у в команде -w Х -‍-h Y;

❗ Необходимо учитывать, что установить можно только размеры существующих стандартов разрешения, а не указывать взятые с потолка цифры

Дополнительно можно указать параметры разрешения, используя слова-ключи, к примеру: 8K, 4K, photoreal, ultra photoreal, ultra detail, intricate details и т. д.

? Часто используемые команды в Midjourney

Эти команды лучше указывать в конце запроса, а впереди поставить двоеточие с пробелом:

( : )/td>	чтобы нейросеть точно поняла, какую команду ей дают
-q <число>	Означает степень обработки картинки. Используется диапазон от 0,25 до 5. По умолчанию стоит 1, если поставить 5 то обработка будет длиться не менее 5 минут.
-‍-s <число>	Значение качества стилизации. Возможен диапазон от 600 до 20 000. Изначально стоит 2500. Чем выше это число, тем больше изображение будет похоже на указанный стиль, к примеру Ван Гога.
-‍-chaos <число>	Число определяет уровень абстракции. Значение может быть от 0 до 100. Соответственно, чем больше число, тем выше возможности.
:: <число>	Число выделяет какую-то часть изображения из общего описания. Предустановлено 0,25. Пример написания: запрос «email cat», дописываем значение: «email::5 cat :3». Это означает, что при генерации объект email будет важнее, чем объект cat.
-‍-iw <число>	Число определяет сходство. Пригодится, если вам нравится картинка и вы хотите создать похожее на нее изображение. Изначально стоит 0.25.
-‍-no	Эта команда уберет с готового изображения ненужный вам предмет. примеру., если указать в описании no birds, то нейросеть уберет с картинки птиц.
/settings	Открывает возможность ввести простые настройки, такие как качество, приватность и т. д.
/prefer option set <имя пресета> <параметры>	Поможет сохранить заданный шаблон для следующих генераций.

К примеру «/prefer option set mine -‍-ar 4:3» создаст настройку -‍-mine с соотношением сторон 4 на 3.

? При помощи личного шаблона легче будет работать, не прописывая одни и те же параметры для каждого изображения

Удобно, если приходится генерировать много изображений./prefer option list — по этой команде можно увидеть все свои шаблоны. Можно сохранять не больше 20 таких шаблонов.Fabula AI предоставляет возможность взаимодействия с выдающейся и широко распространенной нейросетью Stable Diffusion.

В настройках сервиса имеются подсказки для создания запроса, выбора стиля и других дополнительных параметров, таких как steps, guidance scale и seed.Fabula AI предоставляет условно-бесплатные возможности на основе искусственного интеллекта. Тому, кто зарегистрируется в сервисе в день предоставляется 10 бесплатных генераций, а не прошедшим регистрацию — 3 генерации.

Это удобно для тех, кто хочет провести тестирование нейросети, анонимно. Если продолжать использовать нейросеть, придется заплатить 69 руб за 10 генераций. Самый выгодный тариф 150 рублей за 150 генераций.