¿Alguna vez has querido generar imágenes de alta calidad y realismo para tus proyectos? Si es así, estás en el lugar correcto, en este artículo de geekno.com, te presentaremos Stable Diffusion, una técnica de generación de imágenes mediante inteligencia artificial que se ha vuelto cada vez más popular en el mundo del aprendizaje automático.
¿Qué es Stable Diffusion?
Stable Diffusion es un software de inteligencia artificial que ha sido desarrollado por la empresa Stability AI, y que tiene la capacidad de generar imágenes a partir de texto natural.
Stable Diffusion es un proyecto de código abierto, lo que significa que cualquier persona puede contribuir al desarrollo del mismo, el motor de inteligencia artificial puede ser utilizado para una variedad de propósitos, incluyendo la creación de imágenes para fines de entretenimiento o para el diseño gráfico, así como también, la IA puede ser utilizada en medicina o incluso, podemos usar la IA para crear retratos, realistas de personas.
En general, Stable Diffusion es una herramienta que ha sido diseñada para facilitar la creación de imágenes a partir de texto de manera automatizada y con resultados sorprendentes.
¿Cómo funciona Stable Diffusion?
El modelo de aprendizaje automático utiliza espacios latentes para codificar las características críticas de las imágenes, lo que permite que se puedan generar imágenes de alta calidad a partir de textos muy cortos, además, el modelo también puede modificar imágenes existentes o rellenar espacios en blanco de las mismas. El futuro de la inteligencia artificial, es muy ámplio y desconocido, tratar de aprender a utilizarla de la mejor forma posible, hará que obtengamos de ella, los resultados que esperamos.
El motor utiliza una arquitectura de difusión latente, que permite generar imágenes a partir de una menor cantidad de información. El modelo trabaja sobre espacios latentes para codificar las características críticas de las imágenes, mientras que el resto del proceso se realiza en el espacio RGB de la imagen.
Stable Diffusion puede ser utilizado en local en nuestros equipos utilizando nuestras GPUs, siempre y cuando éstas tengan una capacidad mínima de 5GB de VRAM. También se puede utilizar en entornos Cloud con tarjetas gráficas alojadas, como Google Colab, sin tener cuenta de pago.
¿Por qué usar Stable Diffusion?
Existen varias razones por las que se podría querer utilizar Stable Diffusion. En primer lugar, puede ser útil para aquellos que necesitan generar imágenes a partir de texto, como escritores o periodistas que necesitan ilustrar sus artículos con imágenes. En segundo lugar, puede ser una herramienta útil para diseñadores gráficos que necesitan crear bocetos rápidos para proyectos, además, su capacidad para generar imágenes realistas y detalladas puede ser útil para la creación de personajes en videojuegos o películas.
Otra razón para utilizar Stable Diffusion es que es de código abierto, lo que significa que los desarrolladores pueden modificar y mejorar el software según sus necesidades, además, hay una comunidad de usuarios que están dispuestos a ayudar con preguntas y problemas técnicos
En cuarto lugar, es muy flexible en términos de resolución y calidad, se pueden generar imágenes de cualquier tamaño y resolución, lo que significa que se pueden crear imágenes de alta calidad para cualquier tipo de proyecto.
Por último, Stable Diffusion es muy rápido y eficiente en términos de uso de recursos. Esto significa que se pueden generar imágenes de alta calidad en un corto período de tiempo y con menos recursos que otros métodos de generación de imágenes.
¿Cómo crear un buen prompt para Stable Difussion?
Hay mucho que aprender para elaborar un buen prompt para Stable Difussion, pero lo básico es describir tu tema con el mayor detalle posible. Asegúrate de incluir palabras clave potentes para definir el estilo.
Utilizar un generador de prompts es una forma estupenda de aprender un proceso paso a paso y las palabras clave importantes. Es esencial que los principiantes aprendan las posibles palabras a gastar y sus efectos esperados, como aprender el vocabulario de un nuevo idioma.
Un atajo para generar imágenes de alta calidad es reutilizar prompts existentes, personalizándolos para su caso concreto. Ve a la colección de prompts, elige una imagen que te guste y ¡roba el prompt! El inconveniente es que puede que no entiendas como generar nuevas imágenes de alta calidad.
Reglas de oro para crear buenas prompts en Stable Difussion
A la hora de crear prompts para Stable Diffusion tenemos que basarnos y aplicar básicamente dos reglas: ser detallado y específico, y utilizar palabras clave.
Sé detallado y específico
Aunque la IA avanza a pasos agigantados, la herramienta Stable Difussion aún no puede leerte la mente, tienes que describir tu imagen con el mayor detalle posible.
Supongamos que quieres generar una imagen de una mujer en una escena callejera. Una indicación simplista e incorrecta sería:
«una mujer en la calle»
Bueno, puede que no quieras generar una abuela por ejemplo, pero esto técnicamente coincide con tu prompt. No puedes culpar a la Stable Difussion si la imagen final que te muestra, es una mujer mayor sentada en la calle en una foto en color sepia por ejemplo.
Así que, en lugar de eso, si le escribieras:
«una joven, ojos castaños, mechas en el pelo, sonrisa, vestida con un elegante atuendo informal de negocios, sentada al aire libre, calle tranquila de la ciudad, iluminación del borde»
Cómo ser descriptivo
A veces nos encontramos con el problema de que tenemos una imagen en la cabeza y no tenemos palabras suficientes o precisas para describirla. Por lo tanto, la IA nos dará una imagen quizá lo bastante cercana a nuestra idea, pero no del todo.
Aquí tienes algunos consejos que pueden ayudarte con este bloqueo:
- El orden importa: Ten en cuenta que el orden importa: las palabras situadas cerca de la parte delantera de tu pregunta tienen más peso que las situadas en la parte trasera.
- Si sigues utilizando la palabra «muy» antes de cualquier otra palabra, intenta encontrar una palabra precisa en lugar de esta.
- Intenta seguir estos pasos: tipo de contenido > descripción > estilo > composición.
- Tipo de contenido: ¿Qué tipo de obra de arte quieres conseguir? ¿Es una fotografía, un dibujo, un boceto, un render 3D…?
- Descripción: define el sujeto, los atributos del sujeto, el entorno/escena. Cuanto más descriptivo seas con el uso de adjetivos, mejor será el resultado.
- Estilo: ya hemos visto los más comunes, pero también hay «subcategorías»: iluminación, detalle…
- Composición: se refiere a la relación de aspecto, la vista de la cámara y la resolución.
¿Cómo implementar Stable Diffusion?
La herramienta es similar a MidJourney o DALL-E 2, puedes acceder al modelo de Stable Diffusion en línea o desplegarlo en tu máquina local. En este artículo, repasaremos ambos enfoques y compartiremos algunas herramientas prácticas.
DreamStudio
DreamStudio es una herramienta en línea creada por Stability AI, el equipo responsable de Stable Diffusion. Proporciona acceso a la última versión de los modelos de Stable Diffusion (por ejemplo, abajo puedes ver que he generado la imagen utilizando Stable Diffusion ver 2.1-768). Además, la herramienta tiene una velocidad de generación impresionante. Puede generar una imagen en menos de 15 segundos con los ajustes predeterminados.
La herramienta ofrece una prueba gratuita a sus usuarios, como usuario, dispondrás de 100 créditos que podrás utilizar para generar imágenes, por lo que es probable que generes de 100 a 500 imágenes dependiendo de tu configuración, puedes comprar 1000 créditos por 10 euros.
Hugging Face
Hugging face proporciona acceso online gratuito a la última versión del modelo de Stable Diffusion (ver 2.1). Pero a diferencia del Dream Studio, la herramienta no te permite personalizar propiedades como el número de pasos, la escala, etc. Y la herramienta tarda bastante más tiempo en generar la imagen (por término medio, tarda más de un minuto en crear una imagen)
WebUI
La WebUI de Stable Diffusion es una aplicación web que te da acceso a los modelos de Stable Diffusion de forma local. Es una interfaz de navegador basada en la biblioteca Gradio para Stable Diffusion que configuras desde bibliotecas individuales. Esta opción tiene dos cosas muy buenas:
- WebUI funciona en todos los sistemas (Linux, Windows, mac)
- WebUI te da acceso a ajustes avanzados, como elegir un método de muestreo o restaurar rostros (esta opción es muy valiosa si generas rostros humanos mediante Difusión Estable).
Pero también tiene algunos inconvenientes importantes: necesitarás instalar herramientas como Python, git y utilizar la línea de comandos para algunas operaciones. Así que requerirá algunos conocimientos técnicos, además, la interfaz de la aplicación no es muy fácil de usar. Necesitarás tener al menos unos conocimientos básicos de las opciones que ofrece el modelo de Difusión Estable.
DiffusionBee
DiffusionBee es otro software que puedes ejecutar localmente en tu ordenador, ahora mismo, el software está disponible para usuarios de macOS, pero en el futuro también lo estará para usuarios de Windows, lo mejor de esta aplicación es que es relativamente fácil de instalar y empezar a utilizar. La herramienta tiene una interfaz sencilla y guía a los usuarios que quieren acceder a funciones avanzadas.
El inconveniente de esta aplicación es que utiliza el antiguo modelo de Stable Diffusion (ver 1.5), mientras que todas las demás herramientas de nuestra lista utilizan el 2.1, además, la aplicación consume muchos recursos de hardware. Necesitas al menos 16 GB de RAM para ejecutar esta herramienta cómodamente; de lo contrario, el tiempo de generación de la imagen tardará más de un minuto.
¿Qué impacto tiene Stable Diffusion en la generación de imágenes?
Stable Diffusion ha tenido un gran impacto en la generación de imágenes y el aprendizaje automático en general. Ha permitido a los desarrolladores y diseñadores crear imágenes de alta calidad y realismo con una facilidad y eficiencia sin precedentes.
También ha abierto nuevas oportunidades para la creación de contenido visual en diversas industrias, como el cine y los videojuegos. Se espera que Stable Diffusion continúe evolucionando y mejorando en el futuro, lo que podría llevar a avances aún más significativos en la generación de imágenes.
Ejemplos de uso de Stable Diffusion
Como crear prompts puede resultar un poco difícil para algunas personas, Stable Diffusion ofrece una enorme base de datos con más de 9 millones de sugerencias de prompts para utilizar. Para estos ejemplos, se utilizaron sugerencias sobre prompts relacionados con construcciones, jardines y obras de arte:
Casa residencial interior futurista de alta gama, olson kundig::1 Diseño interior de Dorothy Draper, maison de verre, axel vervoordt::2 fotografía premiada de un espacio de biblioteca habitable interior-exterior, diseños modernos minimalistas::1 espacio residencial habitable interior-exterior de alta gama, renderizado en vray, renderizado en octane, renderizado en unreal engine, fotografía arquitectónica, fotorrealismo, destacado en dezeen, cristobal palma::2. 5 paisaje de chaparral en exterior, superficies/texturas negras para mobiliario en espacio exterior::1 -q 2 -ar 4:7
Ambiente interior de sala de estar, moderno de mediados de siglo, jardín interior con fuente, retro,m vintage, muebles de diseño de madera y plástico, mesa de hormigón, paredes de madera, árbol de interior en maceta, gran ventanal, paisaje forestal exterior, hermosa puesta de sol, cinematográfico, arte conceptual, arquitectura sostenible, octane render, utopía, etéreo, luz cinematográfica, -ar 16:9 -stylize 45000
Jardín,Muchas rosas rojas,Unas cuantas rosas,Nubes, toma ultra amplia, atmosférica, hiperrealista, 8k, composición épica, cinematográfica, octane render, artstation paisaje veduta fotografía de Carr Clifton & Galen Rowell, 16K de resolución, Paisaje veduta fotografía de Dustin Lefevre & tdraw, resolución 8k, detallado paisaje pintado por Ivan Shishkin, DeviantArt, Flickr, renderizado en Enscape, Miyazaki, Nausicaa Ghibli, Breath of The Wild, postprocesado detallado 4k, artstation, renderizado por octane, unreal -hd -ar 9: 16
Una obra de arte de pintura digital de renderizado CG de arte conceptual cinematográfico épico altamente detallado: coche patrulla dieselpunk inspirado en una locomotora. Por Greg Rutkowski, Ilya Kuvshinov, WLOP, Stanley Artgerm Lau, Ruan Jia y Fenghua Zhong, tendencia en ArtStation, colores cinematográficos sutiles y apagados, realizado en Maya, Blender y Photoshop, render de octanaje, composición excelente, atmósfera cinematográfica, iluminación cinematográfica dinámica y dramática, anatomía precisa y correcta, estética, muy inspirador, de cine de autor.