Можно попробовать stable diffusion, но оно какое-то такое не очень. Если хочешь что-то сложное, лучше генерировать частями, а потом объединять в фотошопе