18 марта 2023 18.03.23 11 2408

СтопГейм и Стабильность Диффузии

+20

Stable Diffusion, бессонница

Диана Шпингалет Урбанович
Диана Шпингалет Урбанович

Пару недель назад, из интереса и, возможно, скрытого желания сгенерировать балерину из Atomic Heart, я установил нейросеть и принялся экспериментировать, сначала с текстовыми запросами, потом с редактированием фото, масками, скетчами и пр.

Слишком далеко я не зашел, но, возможно, начальные инструменты будут интересны тем, кто наткнется на этот, прости господи, "материал".

По поводу установки: как пишут на сайте, на котором я нашел инструкцию, требуется "достаточно мощный компьютер", не меньше 4Гб видеопамяти и 10Гб для установки. У меня Nvidia 3050, 8Гб  - картинки больше чем 1000х1000 пикселей может отказаться генерировать, приходится играть с фильтрами и менять размеры (мне интересно генерировать на основе фото, поэтому либо подрезать фото, либо устанавливать фильтры так, чтобы урезалось и форматировалось изображение на выходе). Сами картинки, в зависимости от параметров, генерируются от 1 до 10 минут (мои стандартные эксперименты, я не старался устраивать стресс-тесты).

#ЯнВерниКосарь
#ЯнВерниКосарь

Инструкция тут https://remontka.pro/stable-diffusion-install-use/#install

Отдельно хочу уточнить что инструкция нифига не полная, в моем случае не установлен компонент для использования nvidia cuda и не особо хочет ставиться, это очень вялая битва, но может когда-нибудь я ее выиграю, пока руковожусь принципом "вроде работает".

#ВасяСмотритТебеВДушуИОсуждает
#ВасяСмотритТебеВДушуИОсуждает

Если ссылки нельзя (я тут первый раз пишу), ставил я версию AUTOMATIC1111 с веб-интерфейсом, потому что а почему бы и нет, мне так удобно, не судите меня. Поясню, есть версии которые работают по API напрямую через командную строку. В моей установке возможны оба варианта. Можно даже создать публичную ссылку, чтобы генерировать, например, изображения сидя в телефоне, пользуясь мощностями своего ПК.

#ФенБухой
#ФенБухой

За десяток дней пользования я остановился на модели Protogen x3.4, под 6Гб ( так называемые чекпоинты, модели обучения, на которых отработаны удобные сценарии). Кроме моделей есть дополнительные обработчики: Hypernetwork, LoRA, Textural Inversion. Они весят меньше, подключаются к выбранной модели как дополнительные фильтры в виде описания. В случае веб-интерфейса - выбрал - ткнул - появилось в описании. В случае API - не знаю, перестаньте на меня давить.

txt2img - вкладка, где сначала вписываешь

Promt - то что ты хочешь видеть на получившейся картинке, от простых словосочетаний до найденных в сети абзацев, по которым можно предположить каким будет изображение.

Negative prompt - то, чего на изображении быть не должно

Sampling method - список способов выборки, есть список вариантов, можно переключаться и смотреть на результат генерации, а можно найти интересующую картинку, увидеть какое описание и какой метод выборки был использован и выбрать его. Я делал и так и так, в любом случае интересно, субъективно больше нравится DPM++ SDE Karras

Ширина, Высота, это понятно.

CFG Scale (на самом деле пояснения есть при наведении на свойства) - насколько выходное изображение будет соответствовать описанию, как сильно нейросети разрешено креативить.

Denoising strength - тоже фактически шкала креатива, уже не зависит от описания, чем выше, тем более абстрактно ваше изображение.

Batch count -  сколько сгенерировать изображений. Увеличит время.

Batch size - сколько изображений сгенерировать за 1 прогон. Увеличит количество потребляемой памяти

Sampling Steps (UPD) - чем больше количество шагов, тем больше удаляется артефактов, в большинстве случаев, как пишется в руководствах, после 30 шагов уже мало что меняется, я, со своей стороны, ставлю от 50 до 100, в случае с масками кажется, что итоговый рисунок чище, возможно самовнушение.

Изображение по текстовому описанию, которое было использовано в txt2img и в некоторых img2img
Изображение по текстовому описанию, которое было использовано в txt2img и в некоторых img2img

img2img - с тем же самым текстовым описанием можно добавить фото и настроить так, чтобы полученное изображение было хоть как-то на него похоже

Та же фотка Дианы, но без маски
Та же фотка Дианы, но без маски

А Маска это вкладка Inpaint. Тут на изображении можно указать зоны, которые ты хочешь чтобы обработчик не интерпретировал или наоборот, интерпретировал только их (в моем мозгу все понимают, что я имею в виду "либо преображал, либо игнорировал").

Жутковато, но я тут указал, немного неровно, какие области не надо креативить
Жутковато, но я тут указал, немного неровно, какие области не надо креативить
отмеченные или не отмеченные зоны, нувыпонели
отмеченные или не отмеченные зоны, нувыпонели

Есть так же вкладка Scetch - разными цветами схематично нарисовать/обозначить рисунок и кинуть это в жерло генератора.

Нет, это не пример скетча, это Василий Русяев, автор истории серии Метроид
Нет, это не пример скетча, это Василий Русяев, автор истории серии Метроид

От набора выборки, как вы подкрутите бегунки зависит многое, но можно в выбранном варианте, который вам понравился, создать несколько картинок и даже будут хорошие отличия, будет из чего выбрать.

тот же Ян
тот же Ян

Я как скачивал модели для генерации, так и просто в поиске искал популярные промты. До чего-то более взрослого я не дошел, но решил создать что-то, что не является ни инструкцией по установке, ни руководством пользователя, ни вообще чем-то полезным, развязка раскрывается в начале текста, как принято у Донцовой, Кинга и [вписать имя популярного писателя, с банальным развитием сюжета ]


Лучшие комментарии

Мультивселенных по Стопгейму кажется и так уже много. Но это не помешает появиться ещё одной.

Ну, как-то без упоминания ControlNet не то. Всё-таки он даёт, как ни странно, гораздо больше контроля над img2img, поэтому его так все сейчас хайпят. А так неплохой материал для новичков, которые впервые слышат о подобных нейронках. Может портреты авторов портала и вдохновят кого-то на создание собственных шедевров.

спасибо за отзыв и информацию, про ControlNet даже не знал, буду смотреть в этом направлении)

Читай также