Обучение

Не только картинки: как пользоваться нейросетью Kandinsky

1938
3
0

За несколько лет генератор картинок стал самой популярной и развитой отечественной моделью для рисования. Сейчас Kandinsky уже многое умеет, а научиться им пользоваться очень просто. Рассказываем, как это сделать.

Как появилась нейросеть

Нейросеть Kandinsky
Популярность моделей-художников подтолкнул российских разработчиков к созданию своей нейросети для рисования. Фото: Shutterstock / FOTODOM

Резкий взлёт и популярность моделей-художников в 2022 году подтолкнул российских разработчиков к созданию своей нейросети для рисования. Прежде всего, потому, что отечественная публика крайне нуждалась в генераторе, поддерживающим русский язык. Первыми сориентировались две профессиональные IT-платформы: Яндекс и Сбер AI. Их продукты вышли в свет примерно в одно и то же время и продолжают постоянно апгрейдиться.

К сегодняшнему дню сервис выпустил 4 полноценных версии Kandinsky (это правильное написание названия нейросети, но люди привычно набирают его для простоты кириллицей – нейросеть Кандинский). Есть ещё тестовые бета-версии и модель для генерации роликов Kandinsky Video.

Kandinsky 2.0 уже мог создавать изображения по тексту на разных языках. Kandinsky 2.1. обучали на увеличенном дата-сете, поэтому он стал лучше справляться со сложными запросами. В Kandinsky 2.2 добавили фотореалистичности и разных форматов по размеру. Примерно в это же время в нём запустили и генерацию видео. И, наконец, вышла актуальная версия 3.0, которая лучше понимает русский культурный код. Например, может правильно нарисовать вам русского богатыря, Красную площадь или кокошник.

Где генерировать в Kandinsky

Разработчики позаботились о широком доступе к модели, поэтому найти её можно сразу на нескольких платформах. Для кропотливой работы в редакторе, обработки готовых изображений и экспериментах с разными функциями лучше генерить в браузере: на порталах FusionBrain и ruDALL-E. На первом необходимо зарегистрироваться, на втором для создания изображений вам предложат капчу. Также тут можно выбрать версию модели, в которой вы хотите рисовать.

Самый простой способ получить картинку от Kandinsky на смартфоне – воспользоваться ботом в Telegram. Тут у вас меньше опций, зато быстро. В целом бот справляется с генерацией не хуже версии в браузере, но корректировать результат не получится. Компенсировать этот минус можно за счёт многократных запросов нейросетке нарисовать такое же изображение. Генерит модель меньше 30 секунд.

Также разработчики предлагают для использования в телефоне приложение для андроидов «Салют».

Как начать рисовать в Kandinsky в браузере

Kandinsky
Kandinsky предлагает 18 стилей рисовки, включая и художника, у которого он позаимствовал название. Фото: Shutterstock / FOTODOM

После регистрации и входа на платформу вы увидите квадратное окошко 1024х1024 (1:1). Это поле генерации, соотношение сторон которого можно сразу же выбрать: 16:9; 9:16; 3:2 или 2:3. В нижнем блоке предлагается ещё несколько видов настроек:

  1. Промпт. Текстовый запрос модели на картинку. Здесь вы излагаете ей, что хотите генерить. Начинать можно со свободной формы, но позже вам придётся корректировать формулировки, чтобы нейросеть правильно вас понимала. Искусство составления промптов на сегодняшний день является целой профессиональной сферой и носит своё название. Промпт-инжиниринг нужен не столько для баловства с картинками, сколько для умения добиваться от моделей нужного результата во всех областях, где используют сейчас искусственный интеллект.
  2. Негативный промпт. Никакого негатива в общем понимании здесь нет, но эта опция важна. Тут вы указываете те детали, которых на картинке быть не должно. К примеру, если вы попросите нейросеть изобразить позвоночник, она с большой вероятностью нарисует весь скелет. В этом случае в поле негативных промптов стоит указать «череп» и другие части, которые необходимо исключить.
  3. Стиль. В этом разделе можно зависнуть надолго даже на этапе выбора. Kandinsky предлагает 18 стилей рисовки, включая и художника, у которого он позаимствовал название. В ряду его коллег также Айвазовский, Малевич и Пикассо. Можно рисовать карандашом или маслом, получить картинку в мультяшном стиле или запросить фотографию. Возможность оставить всё как есть тоже имеется. По определению выставлен «Свой стиль», хотя название условно. Так или иначе, генерит модель – вы проявляете свою индивидуальность только в промптах.

Впрочем, вам необязательно детально конкретизировать сюжет. Многое можно отдавать на откуп нейросети, она ещё и лучше справится. Если вы не особый придумщик и с фантазией у вас не ахти, вряд ли вы захотите прописывать в запросе цвет листвы, породы деревьев и ландшафт растительности при генерации пейзажа. По промпту «Осенний лес» Kandinsky предложит вам сколько угодно вариантов от себя.

Как редактировать картинку в Kandinsky

Независимо от того, хотите вы переделать изображение от самой сети или поработать на основе другой готовой картинки, Kandinsky заточен корректировать любой материал.

Инструментарий:

  • Ластик. С помощью так называемого инпейнтинга – включения в генерацию дополнительных объектов или замену нарисованного на нечто иное – картинку можно изменить до неузнаваемости. Но обычно требуется просто вместо кота вставить собаку или надеть на героиню другую шляпу. Вспоминаем, как тяжко было сделать это ранее в том же фотошопе ручным способом. Ластиком вы, как и прежде, стираете лишнее, а после задаёте нейросети новый промпт, и она красиво вписывает предмет в освободившееся место.
  • Дорисовка. Тут немного наоборот. Аутпейнтинг предназначен для того, чтобы расширить рамки изображения. Для этого подгружаем исходную картинку в поле, задаём сюжет промптом и генерим новую историю. Чтобы у сети было место для творчества, размер оригинала должен быть меньше. В окошке можно сжать его, потянув за стрелочки.

С полным набором функций и инструментов можно ознакомиться, нажав на уменьшенное изображение клавиатуры в верхнем меню.

По завершении работы готовое изображение можно скачать абсолютно бесплатно. Нейросеть Сбера для генерации картинок пользуется огромным спросом и уже преодолела барьер в 200 миллионов генераций.

Как создавать изображения в чат-боте Kandinsky в Telegram

Чат-бот Kandinsky
В Telegram представляют все версии нейросети. Фото: Shutterstock / FOTODOM

Никаких регистраций и других раздражающих формальностей. Просто подпишитесь на бота и приступайте. Тут представляют все версии нейросети, так что можно при желании по ходу творчества менять их по надобности.

Меню содержит семь команд, из которых активно обычно используют всего три-четыре.

  • /start – начало работы, при котором вы получите короткое сообщение с описанием возможностей модели;
  • /model – выбор или замена версии инструмента;
  • /help – с перечислением и расшифровкой всех команд;
  • /negative_prompt – предоставляет возможность выбрать базовый промпт для исключения ненужных деталей и критериев картинки, задать свой и изменить его, отказаться от его использования.

Команда /rules вам понадобится единственный раз, чтобы ознакомиться с Политикой конфиденциальности и Пользовательским соглашением.

Команда /profmode включает и отключает профессиональный режим. В нём доступны определённые функции, о которых в обычном режиме вы можете даже не догадаться. Например, пропорции смешивания картинок. В народе популярны эксперименты со смешиванием собственных фото и кадров со знаменитостями. В профрежиме можно выбрать, каких черт оставить на картинке больше – своих или Анджелины Джоли. Качественного результата, впрочем, добиваются только действительно профессионалы промпт-инжиниринга. Но Kandinsky всё равно попытается выполнить свою работу и так или иначе скрестит два изображения.

Команда /finish не удивит. Она нужна, если вы вдруг передумали рисовать задуманное и хотите заново начать процесс с другой задачей. Но можно воспользоваться и уже знакомой функцией /start.

Стоит знать, что версии модели могут существенно различаться, и речь не только о качестве генерации. Той самой возможности смешивать, например, в Kandinsky 3.0 нет, но она осталась в предыдущей модели Kandinsky 2.2. Авторы посчитали, что последняя версия и так нарисует вам любой гибрид по запросу.

Kandinsky 2.2 mash-up может нагенерить не только из двух картинок. Есть возможность совместить изображение и текст (то есть промпт с описанием того, что вы хотите «замесить» в картинку).

Как генерить видео и анимацию в Kandinsky

Эта опция доступна как на FusionBrain, так и в боте Kandinsky Video в Telegram. Оба инструмента создают анимацию и видео. С анимацией пока что нейросеть справляется заметно лучше, для видео хотелось бы большей реалистичности. К тому же, огрехи в нём сразу режут глаз, тогда как мультяшной истории многое простительно. Доступно три формата – квадрат и два прямоугольника (горизонтальный и вертикальный).

Ролик может состоять из нескольких сцен (от одной и больше). Проще всего генератору даётся первая сцена, склейка последующих далеко не всегда бывает адекватной. Но многое зависит от сложности сюжета. Если не зацикливаться на реализме, можно создать совершенно фантастическую историю с превращениями. Важна ли склейка, если мы хотим обратить девочку в шкаф? В таких историях ролику не нужна идеальная плавность. В самом худшем случае вы получите обычный монтаж: при переходе одной сцены в другую сменится кадр.

Можно запрашивать как сюжеты, содержащие действие (полёт бабочки, едущий автобус), так и условно статичную картинку (просто бабочку, автомобиль, любой объект). Во втором случае анимация будет заключаться в красивых переливах картинки и плавных изменениях линий и форм. Также есть выбор движения камеры: приближение, отдаление, повороты и движения справа налево и в обратном направлении, вверх-вниз. Для создания самого простого мультика этого хватает.

Создание ролика занимает больше времени. По факту нейросеть генерит одну сцену минуту-полторы, но для пользователя, привыкшего работать с изображениями, это срок. Сама сцена при этом составляет 4 секунды, всего позволяют сотворить не больше 4 сцен. Соответственно, для всего ролика в 15 секунд (не 16, так как склейка сокращает хронометраж) требуется минимум 6 минут ожидания. Но есть кнопка для того, чтобы отменить генерацию, если передумали или ждать больше нет никаких сил. Обратного отсчёта, к сожалению, нет.

Так же, как и в создании картинок, модель можно просить перерисовать историю бесчисленное количество раз. Эксперты говорят, что при постоянной работе нейросеть учится творить уже с учётом ваших предыдущих предпочтений. Пока непонятно, стоит ли этому верить, так как искусственный интеллект ещё во многом непонятен даже специалистам.

Генерация видео в Kandinsky

На сайте в браузере доступны те же три формата ролика, а вот в монтажёра поиграть не дадут – видео создаётся сразу целиком. Заданное время генерации – 4 минуты, но на практике модель работает примерно раза в три быстрее. Правда, и ролик весьма коротенький, всего 7 секунд. Впихнуть в такой хронометраж что-то впечатляющее довольно непросто, хотя модель старается. Но если просить её нарисовать много всего, она выдаст смену картинок с безумной скоростью.

Честнее было бы назвать эту функцию генерацией гифки, но разработчики явно на этом не остановятся. В следующих версиях Kandinsky Video, скорее всего, стоит ожидать развития его способностей «снимать» длинные, содержательные и плавные видео.

Генерация анимации в Kandinsky Video в Telegram

Анимация в Kandinsky Video
Для создания сложного ролика дают сгенерировать только 3 сцены. Фото: Shutterstock / FOTODOM

Бот удобен для создании анимации с мобильного телефона. Тут всё примерно так же, как и в браузере: задаем промпт, выбираем направление камеры.

Если вы с самого начала задумываете анимацию из нескольких сцен, на этом этапе нужно задать промпт для следующего сюжета и так далее. Команду «Завершить сценарий» даём в конце всей истории. Для генерации одной сцены жмём команду после того, как определились с камерой. Но это не конец. В этом месте бот предлагает выбрать формат – квадрат, вертикаль или горизонталь. Сроки создания генерации – те же.

Для создания сложного ролика дают сгенерировать только 3 сцены, в отличие от 4-х на FusionBrain. Время процесса – 3 минуты.

Если результат не зашёл, кликаем на «Сгенерировать ещё раз», не меняя параметров.

Генерация видео в Kandinsky Video в Telegram

Как ни странно, бот предоставляет возможность задать частоту кадров, так что здесь есть варианты. Низкую частоту он создаёт за минуту, на высокую потратит три.

Можно ли использовать картинки и видео от Kandinsky в коммерческих целях

Такой вопрос задают часто, так как зарабатывать с генерациями нейросети весьма соблазнительно. Юристы стараются обойтись существующим законодательством по авторскому праву, однако регулирование применения искусственного интеллекта пока в самом зачаточном состоянии. Дело касается не только визуального контента, а в целом статуса моделей в правовом поле.

Проще говоря, люди пока не определились, считать ли их инструментом или полноценным субъектом права. Звучит фантастически, но развитие искусственного интеллекта в какой-то степени действительно застало мир врасплох. Пока что смело распоряжаться стоит только тем контентом, на который разработчики инструмента дают разрешение. Это, как правило, то, что вам уже продали. Например, логотипы от нейросети Looka.

Фото на анонс: Shutterstock / FOTODOM
3
Ещё по теме
Есть вопросы или хотите обсудить данную тему?
Напишите все, что вас интересует в комментариях
Комментарии 0