Создатели Stable Diffusion представили «облегчённый» генератор картинок Stable Cascade
Stability AI, разработчики Stable Diffusion, представили новую нейросеть Stable Cascade. Она использует архитектуру Würstchen, чтобы значительно уменьшить латентное пространство. За счёт этого нейросеть требует в 16 раз меньше ресурсов при обучении.
С точки зрения результатов Stable Cascade напоминает Stable Diffusion XL, а работать должна быстрее. Но авторы отмечают, что нейросеть пока что может некорректно генерировать людей и лица.
Среди дополнительных функций — создание вариаций изображении и промптинг по картинке. В первом случае нейросеть экспериментирует с заданной картинкой: анализирует исходное изображение и предлагает похожие варианты. Ниже — пример генерации вариаций без дополнительного промпта, нейросети просто скормили левую картинку.
Промптинг с картинкой работает немного иначе. На исходное изображение добавляют шум до потери детализации, после чего используют болванку как основу для генерации. Грубо говоря, нейросеть создаёт что-то тех же очертаний, но с другими деталями, отталкиваясь от текстового описания. В примере ниже к исходнику добавили 80% шума и промпт «Человек верхом на грызуне».
Сейчас опробовать Stable Cascade можно на Hugging Face — это неофициальное онлайн-демо с урезанными возможностями: генерировать можно только по текстовому запросу. Код доступен на GitHub.
Изображения, сгенерированные через Stable Cascade, предназначены только для некоммерческого использования.
Больше нейросетей 🎬🎨