В статье рассказываем об отечественном ИИ-инструменте «Кандинский»: что это за нейросеть, какие возможности имеет и для каких целей подходит.
Что такое нейросеть «Кандинский»
Kandinsky — это сервис для генерации изображений и видео (анимаций) от Сбера. Он хорошо понимает запросы на русском языке и работает бесплатно.
Основой этой нейросети стала другая модель для создания картинок, выпущенная Сбером еще в 2021 году — ruDALL-E. Компания постоянно улучшала нейросеть, в результате чего появилась база для «Кандинского», который далее был обучен дополнительно. Летом 2022 года пользователи получили доступ к новому сервису. С каждым выходом обновленной версии качество генерируемых изображений улучшалось, также расширялся функционал. Сейчас наиболее актуален Kandinsky 5.0 — он умеет генерировать разный визуальный контент, точно следуя запросу пользователя.
Нейросеть можно использовать несколькими способами:
- через боты в Телеграме и MAX для генерации картинок и видео даже с мобильных устройств;
- через сайт GigaChat, который умеет создавать изображения и тексты, отвечать на вопросы, а также генерировать видео в веб-версии.
Как пользоваться нейросетью «Кандинский»
Вначале лучше зарегистрироваться на сайте GigaChat, чтобы получить доступ ко всем функциям. Понадобится только Сбер ID — его можно получить, даже если вы не пользуетесь услугами банка.
Далее кликните на кнопку «Новый чат» — откроется строка для ввода промта. Сформулируйте его (о том, как это правильно сделать — далее) и введите в поле, а затем отправьте запрос. Когда изображение будет готово, сохраните его по клику на кнопку со значком загрузки.
Функции сервиса
Сейчас главные возможности нейросети такие:
- Генерация картинок по текстовому описанию. Это наиболее популярный сценарий использования ИИ-инструмента: пользователь объясняет свою идею, а Kandinsky анализирует общий смысл запроса, детали, стиль, контекст и создает изображение. Чем точнее сформулирована инструкция, тем ближе к вашим ожиданиям будет результат. Несколько примеров запросов: «фотореалистичное изображение старушки на фоне деревянного дома в лесу, новогодняя атмосфера», «туманное утро в мегаполисе будущего, мокрый асфальт, стеклянные небоскребы, по тротуарам ходят люди, теплые тона».
- Создание коротких видео (до 6 секунд). ИИ умеет создавать ролики на основе текстового описания или с опорой на загруженное изображение. Можно настроить размеры кадра, динамику движений, частоту кадров.
Правильный запрос поможет точно описать задачу для нейросети — вы получите ожидаемый результат быстрее. Инструкция должна быть конкретной и краткой, отражая при этом все ваши пожелания.
Двусмысленных формулировок лучше избегать. Что конкретно нужно указать в промпте:
- Главный объект — кто или что в центре внимания. Его стоит описать детально, например, не просто «человек», а «молодая девушка, светлые длинные волосы, мягкие черты лица, красное платье до колен». Такая же ситуация с неодушевленными объектами: не «озеро», а «глубокое озеро, яркие рыбы, мелкие пузырьки воздуха, валуны, заросшие водорослями».
- Действие (контекст) — что делает главный объект или то, что его окружает. Здесь создается композиция будущего контента. Можно просто указать место, например, «красная машина стоит на пустой дороге», или добавить детали: «красная машина стоит на пустой дороге, вокруг жилые дома и много неоновых вывесок, по тротуару ходят люди».
- Стиль. Этот параметр задает палитру и общее оформление изображения. Лучше указать стиль одним словом (реализм, абстракция и т. д.). Если сделать слишком объемное описание, есть риск появления противоречий — «Кандинский» не сможет правильно обработать запрос. Дополнительно здесь можно сказать про детализацию, например, какая текстура одежды, насколько нужно прорисовать рельеф местности и прочее. Вместо словесного описания стиля вы также можете подобрать референсы, отправить их нейросети и указать, что именно нужно повторить.
- Атмосфера — какое настроение должно быть у картинки или видео. Это также повлияет на палитру, освещение и контрастность контента. Атмосферу обычно описывают одним словом, например «сказочная», «мистическая» или «утренняя».
Необязательно формулировать запрос, строго следуя этим пунктам: пропускайте параметры, которые вам не нужны.
Примеры задач, которые можно решить с помощью Kandinsky
Иногда генеративный ИИ используют, чтобы развлечься, но он также может быть полезен в работе и творческих начинаниях. Расскажем о нескольких сценариях применения модели:
- Генерация иллюстраций для статей, презентаций и других материалов. Такая задача регулярно возникает у авторов, преподавателей, маркетологов и SMM-специалистов. В открытом доступе не всегда легко найти картинку, подходящую по теме, стилю, настроению. Нейросеть же учтет все требования и создаст уникальные изображения, которые улучшат восприятие материала и расставят в нем акценты.
- Визуализация идей. Представители творческих специальностей (дизайнеры, художники и т. д.) постоянно генерируют новые концепции, и им важно посмотреть на то, как это будет выглядеть в жизни. Если раньше нужно было визуализировать идеи вручную (рисовать на бумаге или в компьютерных программах), то сейчас это может сделать нейросеть. Так можно экономить время и сразу определять жизнеспособные идеи.
- Создание обложек для музыкальных альбомов и видеоконтента. Цепляющая обложка — это один из способов повышения количества просмотров (прослушиваний) контента. ИИ-инструмент помогает быстро разработать несколько вариантов баннера с разной палитрой, визуальными метафорами, атмосферой и стилем. В итоге получается качественный черновик или полноценная обложка, которую можно использовать для привлечения зрителей (слушателей) к медиапроекту.
- Разработка персонажей. Это долгий процесс, так как нужно вручную подобрать черты лица, эмоции, костюм, аксессуары, прическу, возраст и другие характеристики. Подобные задачи появляются у художников, сценаристов, авторов визуального контента (комиксы и пр.). «Кандинский» помогает быстрее протестировать разные образы персонажей и найти идеи, которые могли бы не прийти в голову при ручной разработке.
- Генерация анимаций и коротких видео (тизеров, промо-роликов, небольших сюжетов). Это полезно для контентмейкеров и SMM-менеджеров, которые ежедневно создают подобный контент. Несмотря на то что пока модель не может заменить ручной монтаж, в некоторых случаях он ускоряет создание динамичных материалов, необходимых для привлечения пользователей.
Примеры промптов и изображений
Попробуем нарисовать горный пейзаж с помощью «Кандинского» по такой инструкции: «высокогорное озеро с кристально чистой водой, легкий утренний солнечный свет, лёгкий туман над поверхностью, отражение заснеженных вершин в воде, детализированные скалы, фотореализм, глубокая перспектива». После генерации получилось такое фото:

Теперь оставим запрос прежним, но выберем один из встроенных стилей «Кандинского»: картина маслом. Результат генерации:

Далее нарисуем одного из главных персонажей русских сказок — Бабу-ягу. Для этого сформулируем такую инструкцию: «баба-яга в лесу в избушке на курьих ножках, хитрое выражение лица, длинные седые волосы, высокие сосны, сумерки, волшебные огни в лесу, мрачная атмосфера, мультяшный эффект». Получилось такое изображение:

Немного изменим запрос, чтобы придать картинке другое настроение: «баба-яга в лесу в избушке на курьих ножках, доброе выражение лица, длинные седые волосы, высокие сосны, раннее утро, восход солнца, волшебные огни в лесу, уютная атмосфера, мультяшный эффект». Результат генерации:

Сгенерируем иллюстрацию для статьи про ИИ: «абстрактная визуализация искусственного интеллекта, светящиеся потоки данных, разные геометрические формы, нейронная сеть, синее и серебристое холодное свечение, технологичный стиль без лишних деталей, минимализм и тонкие линии». Результат генерации:

Так, Kandinsky умеет генерировать картинки в разной тематике, стиле, атмосфере. Он может рисовать природу, персонажей, людей, животных и даже абстрактные визуальные метафоры.
Частые вопросы и ответы
Какие встроенные стили есть в «Кандинском»? Можно ли генерировать контент в своем стиле?
Нейросеть умеет создавать материалы в стиле Айвазовского, Малевича, Пикассо и других известных художников. Также можно выбрать мультяшный стиль, аниме, пиксель арт, классицизм, киберпанк, студийное или портретное фото. Kandinsky специально обучался генерировать контент в этих стилях, поэтому умеет применять их точно. Вы можете указать собственный стиль, главное — чтобы его описание не было слишком объемным. В качестве альтернативы попробуйте найти несколько референсов и отправить их «Кандинскому», чтобы он буквально «увидел» желаемое оформление.
Почему картинка получается не такой, как я ожидаю?
Скорее всего, что-то не так с запросом. Он может быть слишком общим, расплывчатым или противоречивым. Возможна и обратная ситуация: в инструкции не указаны пожелания по композиции, палитре, ограничениям, деталям. В итоге нейросеть генерирует контент, который логичен для нее, но абсолютно не подходит вам. Поэтому в первую очередь попробуйте переформулировать промпт: сделать его структурированным и конкретным, оставив только ключевые элементы. Когда Kandinsky выдаст картинку, близкую к вашим ожиданиям, доработайте ее в несколько итераций, постепенно изменяя детали.