Inteligencia artificial

Así es DALL·E 2, la inteligencia artificial que dibuja (como una persona) a partir de un texto

Así es DALL·E 2, la inteligencia artificial que dibuja (como una persona) a partir de un texto

DALL·E 2 es una inteligencia artificial basada en GPT-3 capaz de dibujar según el texto que se le indique.

Si nos interesa la inteligencia artificial, ejemplos como el que sigue son de los que más nos sorprenderán. Entre otras cosas, porque permiten crear a cualquiera obras de arte un tanto surrealistas. Como las del autor que inspiró su nombre, que no es otro que Salvador Dalí.

“Dibújame un pangolín delante del ordenador programando redes neuronales”, escribe Javier Ideami, ingeniero experto en inteligencia artificial, en la caja de diálogo de DALL·E 2, el generador de imágenes basadas en texto de OpenAI, durante un vídeo del divulgador DotCSV.

Después de unos segundos, la pantalla muestra diez imágenes de 1024 x 1024 píxeles de pangolines haciendo exactamente eso. Programando delante de un ordenador. ¿Cómo es esto posible? ¿Cómo sabe la inteligencia artificial qué tiene que dibujar y cómo? Y, lo más importante, ¿qué traerá esta nueva innovación al mundo de la creatividad o al entorno laboral?

¿Cómo funciona DALL·E 2 por dentro?

DALL·E 2 es uno de los ejemplos de inteligencia artificial capaces de dibujar imágenes a partir de texto. Se trata de una versión de GPT-3 entrenada tanto con texto como con imágenes, en lugar del solo texto como le pasaba a GPT-3.

En esta inteligencia artificial, basta con introducir una orden (o prompt) en una casilla de texto para que se ponga a trabajar y dibuje o componga imágenes. Estas pueden ser fotorrealistas o dibujos con los estilos que defina el usuario. Por ejemplo, puede dibujar algo con el estilo de Salvador Dalí o de Frida Kahlo.

Para que esto haya sido posible, DALL·E 2 ha aprendido con millones de imágenes etiquetadas con texto. Se suelen usar en inteligencia artificial ejemplos como el de los gatos: en internet hay millones de imágenes de gatos, llamadas “gato”. Para la IA es fácil entender que eso que se muestra es un gato, e incluso componer nuevos gatos con base a lo que todas esas imágenes tienen en común: la información básica de “gato”.

Esa información básica se llama en inteligencia artificial “espacio latente” (code en la imagen), y visualmente es un cuello de botella después de la entrada de datos. La parte izquierda de la gráfica de abajo muestra cómo aprendió DALL·E 2, reduciendo imágenes dadas como entradas (inputs) a un espacio latente de información; mientras que la derecha muestra cómo genera imágenes de salida (output) cuando se le escribe algo que coincide con el code.

 cómo aprende DALL·E 2

A esto se le llama arquitectura estocástica. Cada vez que se escribe un prompt o texto, DALL·E 2 busca en su base de datos del code y empieza a componer según las capas del decoder para dar lugar a una imagen final. Pero, a diferencia de otros sistemas de machine learning previos, DALL·E 2 no solo es capaz de entender qué es un gato o qué es un sofá, sino la relación entre ambos conceptos. Es realmente impresionante porque, en cierto modo, entiende lo que dibuja.

¿Qué puede hacer DALL·E 2, cuáles son sus límites?

Como ya le había pasado a DALL·E, DALL·E 2 no es un sistema ideal, y tiene fallos o glitches cuando no es capaz de entender qué se le está pidiendo. Si lo que se le pide es algo muy loco que no se da en la vida real o de lo que no tiene muchas fuentes, esta IA devuelve contenido que no tiene mucho sentido. Aun así, es bastante potente. Estos son ejemplos de lo que puede hacer esta inteligencia artificial:

  • Generar imágenes: es la opción por defecto. Basta con introducir un texto para indicar qué se quiere mostrar, y la inteligencia artificial pinta diez cuadros con las características deseadas. Aunque por lo general alguno de ellos no cumplirá con lo que el usuario entiende por prompt, es bastante probable que al menos una imagen sea la que se busca.
imagenes generadas por DALL-E 2
  • Generar múltiples variaciones de una imagen: esta alternativa es muy útil cuando hay una imagen que se parece mucho a lo que se está buscando, pero se quieren generar más parecidas. En este caso la IA vuelve a generar diez cuadros similares al cuadro que se elija. Es muy útil si se buscan imágenes parecidas a otras imágenes generadas.
variaciones de imagenes generadas por DALL-E 2
  • Hacer inpainting dentro de una imagen: tomando como base una imagen previamente generada, es posible borrar parte de la misma y volver a escribir en un segundo prompt qué se quiere que aparezca ahí donde ahora hay un hueco. Por ejemplo, quitar un perro y poner un gato.
inpainting dentro de una imagen con DALL-E 2
  • Text difts multimodales: son una serie operaciones aritméticas algo técnicas pero muy útiles que permiten trabajar dentro del espacio latente.

Inteligencia artificial, ejemplos con DALL·E 2

DALL·E 2 tiene futuro en todos los trabajos creativos en los que haga falta hacer uso de imágenes. Con esta inteligencia artificial, ejemplos no faltan de los productos artísticos que se pueden realizar. Unopodría ser el diseño de portadas de libros adaptadas a un texto dado. Otro, la generación de patrones de vestidos, como se observa en la fotografía de abajo. El diseño de marcas, la confección de cartelería o simplemente la producción de cuadros son posibilidades a tener en cuenta, entre muchas otras posibilidades.

generación de patrones de vestidos con DALL-E 2

Ilustradores, fotógrafos, diseñadores gráficos y todo profesional que haga uso de herramientas de diseño o composición artística de imágenes, también ingenieros, diseñadores industriales o arquitectos, podrán usar dentro de poco estas herramientas como apoyo.

Al tiempo, es probable que ‘redactores de prompts se convierta en una profesión técnico-artística más. Gente especializada en entender qué hay que escribir para obtener el resultado deseado, al igual que actualmente hay SEO, SEM, SMM o SMO en temas de posicionamiento web.

¿De quién son las imágenes generadas?

¿Y qué hay de copyright? ¿A quién pertenece la obra generada con herramientas digitales? ¿A la aplicación, como es el caso de la licencia de Wombo Dreams, otro sistema de generación de imágenes?

“La creación de contenidos automatizada es uno de los terrenos más pantanosos que hay en inteligencia artificial”, comenta el experto José Ignacio Latorre al teléfono. Pero probablemente no sea de la plataforma porque “es como que la propiedad de un cuadro la tenga quien fabricó los pinceles”, cierra Latorre.

“El último consenso en la industria es que las imágenes que tú produces con inteligencia artificial no tienen copyright”, menciona Javier Ideami en el vídeo mencionado sobre DALL·E 2 en DotCSV, por lo que es probable que estos sistemas tengan una licencia mensual o anual, o un sistema de pago por uso.

Te puede interesar

Materiales del futuro: diseñados por algoritmos, pensados para la sostenibilidad 

Materiales del futuro: diseñados por algoritmos, pensados para la sostenibilidad[...]

La innovación en materiales ya no se basa únicamente en la extracción de recursos naturales: ahora se diseñan a medi[…]

Leer más
De  ITER a  IFMIF‑DONES: los grandes proyectos que cambiarán la industria europea 

De  ITER a  IFMIF‑DONES: los grandes proyectos que cambiarán la industria e[...]

Descubrimos las infraestructuras científicas de vanguardia que posicionan a Europa en la carrera por la energía del fu[…]

Leer más
Robots que entienden: el desafío de la interacción humano-máquina 

Robots que entienden: el desafío de la interacción humano-máquina 

Descubrimos la evolución de los modelos de lenguaje e IA física aplicada a la robótica cognitiva y sus implicaciones […]

Leer más

Últimas noticias

Materiales del futuro: diseñados por algoritmos, pensados para la sostenibilidad 

Materiales del futuro: diseñados por algoritmos, pensados para la sostenibilidad[...]

La innovación en materiales ya no se basa únicamente en la extracción de recursos naturales: ahora se diseñan a medi[…]

Leer más
Interfaces inteligentes: el aula del futuro se diseña con IA

Interfaces inteligentes: el aula del futuro se diseña con IA

Cómo la inteligencia artificial y las neurotecnologías están transformando la educación sin perder la centralidad de[…]

Leer más
Más allá del carbono: sistemas resilientes para un planeta en tensión

Más allá del carbono: sistemas resilientes para un planeta en tensión

Abandonar el paradigma fragmentado del «menos carbono» para adoptar una mirada sistémica no es solo deseable: es impres[…]

Leer más