Inteligencia artificial

Así es DALL·E 2, la inteligencia artificial que dibuja (como una persona) a partir de un texto

Así es DALL·E 2, la inteligencia artificial que dibuja (como una persona) a partir de un texto

DALL·E 2 es una inteligencia artificial basada en GPT-3 capaz de dibujar según el texto que se le indique.

Si nos interesa la inteligencia artificial, ejemplos como el que sigue son de los que más nos sorprenderán. Entre otras cosas, porque permiten crear a cualquiera obras de arte un tanto surrealistas. Como las del autor que inspiró su nombre, que no es otro que Salvador Dalí.

“Dibújame un pangolín delante del ordenador programando redes neuronales”, escribe Javier Ideami, ingeniero experto en inteligencia artificial, en la caja de diálogo de DALL·E 2, el generador de imágenes basadas en texto de OpenAI, durante un vídeo del divulgador DotCSV.

Después de unos segundos, la pantalla muestra diez imágenes de 1024 x 1024 píxeles de pangolines haciendo exactamente eso. Programando delante de un ordenador. ¿Cómo es esto posible? ¿Cómo sabe la inteligencia artificial qué tiene que dibujar y cómo? Y, lo más importante, ¿qué traerá esta nueva innovación al mundo de la creatividad o al entorno laboral?

¿Cómo funciona DALL·E 2 por dentro?

DALL·E 2 es uno de los ejemplos de inteligencia artificial capaces de dibujar imágenes a partir de texto. Se trata de una versión de GPT-3 entrenada tanto con texto como con imágenes, en lugar del solo texto como le pasaba a GPT-3.

En esta inteligencia artificial, basta con introducir una orden (o prompt) en una casilla de texto para que se ponga a trabajar y dibuje o componga imágenes. Estas pueden ser fotorrealistas o dibujos con los estilos que defina el usuario. Por ejemplo, puede dibujar algo con el estilo de Salvador Dalí o de Frida Kahlo.

Para que esto haya sido posible, DALL·E 2 ha aprendido con millones de imágenes etiquetadas con texto. Se suelen usar en inteligencia artificial ejemplos como el de los gatos: en internet hay millones de imágenes de gatos, llamadas “gato”. Para la IA es fácil entender que eso que se muestra es un gato, e incluso componer nuevos gatos con base a lo que todas esas imágenes tienen en común: la información básica de “gato”.

Esa información básica se llama en inteligencia artificial “espacio latente” (code en la imagen), y visualmente es un cuello de botella después de la entrada de datos. La parte izquierda de la gráfica de abajo muestra cómo aprendió DALL·E 2, reduciendo imágenes dadas como entradas (inputs) a un espacio latente de información; mientras que la derecha muestra cómo genera imágenes de salida (output) cuando se le escribe algo que coincide con el code.

 cómo aprende DALL·E 2

A esto se le llama arquitectura estocástica. Cada vez que se escribe un prompt o texto, DALL·E 2 busca en su base de datos del code y empieza a componer según las capas del decoder para dar lugar a una imagen final. Pero, a diferencia de otros sistemas de machine learning previos, DALL·E 2 no solo es capaz de entender qué es un gato o qué es un sofá, sino la relación entre ambos conceptos. Es realmente impresionante porque, en cierto modo, entiende lo que dibuja.

¿Qué puede hacer DALL·E 2, cuáles son sus límites?

Como ya le había pasado a DALL·E, DALL·E 2 no es un sistema ideal, y tiene fallos o glitches cuando no es capaz de entender qué se le está pidiendo. Si lo que se le pide es algo muy loco que no se da en la vida real o de lo que no tiene muchas fuentes, esta IA devuelve contenido que no tiene mucho sentido. Aun así, es bastante potente. Estos son ejemplos de lo que puede hacer esta inteligencia artificial:

  • Generar imágenes: es la opción por defecto. Basta con introducir un texto para indicar qué se quiere mostrar, y la inteligencia artificial pinta diez cuadros con las características deseadas. Aunque por lo general alguno de ellos no cumplirá con lo que el usuario entiende por prompt, es bastante probable que al menos una imagen sea la que se busca.
imagenes generadas por DALL-E 2
  • Generar múltiples variaciones de una imagen: esta alternativa es muy útil cuando hay una imagen que se parece mucho a lo que se está buscando, pero se quieren generar más parecidas. En este caso la IA vuelve a generar diez cuadros similares al cuadro que se elija. Es muy útil si se buscan imágenes parecidas a otras imágenes generadas.
variaciones de imagenes generadas por DALL-E 2
  • Hacer inpainting dentro de una imagen: tomando como base una imagen previamente generada, es posible borrar parte de la misma y volver a escribir en un segundo prompt qué se quiere que aparezca ahí donde ahora hay un hueco. Por ejemplo, quitar un perro y poner un gato.
inpainting dentro de una imagen con DALL-E 2
  • Text difts multimodales: son una serie operaciones aritméticas algo técnicas pero muy útiles que permiten trabajar dentro del espacio latente.

Inteligencia artificial, ejemplos con DALL·E 2

DALL·E 2 tiene futuro en todos los trabajos creativos en los que haga falta hacer uso de imágenes. Con esta inteligencia artificial, ejemplos no faltan de los productos artísticos que se pueden realizar. Unopodría ser el diseño de portadas de libros adaptadas a un texto dado. Otro, la generación de patrones de vestidos, como se observa en la fotografía de abajo. El diseño de marcas, la confección de cartelería o simplemente la producción de cuadros son posibilidades a tener en cuenta, entre muchas otras posibilidades.

generación de patrones de vestidos con DALL-E 2

Ilustradores, fotógrafos, diseñadores gráficos y todo profesional que haga uso de herramientas de diseño o composición artística de imágenes, también ingenieros, diseñadores industriales o arquitectos, podrán usar dentro de poco estas herramientas como apoyo.

Al tiempo, es probable que ‘redactores de prompts se convierta en una profesión técnico-artística más. Gente especializada en entender qué hay que escribir para obtener el resultado deseado, al igual que actualmente hay SEO, SEM, SMM o SMO en temas de posicionamiento web.

¿De quién son las imágenes generadas?

¿Y qué hay de copyright? ¿A quién pertenece la obra generada con herramientas digitales? ¿A la aplicación, como es el caso de la licencia de Wombo Dreams, otro sistema de generación de imágenes?

“La creación de contenidos automatizada es uno de los terrenos más pantanosos que hay en inteligencia artificial”, comenta el experto José Ignacio Latorre al teléfono. Pero probablemente no sea de la plataforma porque “es como que la propiedad de un cuadro la tenga quien fabricó los pinceles”, cierra Latorre.

“El último consenso en la industria es que las imágenes que tú produces con inteligencia artificial no tienen copyright”, menciona Javier Ideami en el vídeo mencionado sobre DALL·E 2 en DotCSV, por lo que es probable que estos sistemas tengan una licencia mensual o anual, o un sistema de pago por uso.

Te puede interesar

Gobernar la IA: el reto de tomar decisiones con máquinas en la sala 

Gobernar la IA: el reto de tomar decisiones con máquinas en la sala 

La inteligencia artificial ya no solo automatiza tareas: también empieza a influir en decisiones estratégicas, desde l[…]

Leer más
La nueva frontera de los cuidados: robots afectivos y asistencia aumentada

La nueva frontera de los cuidados: robots afectivos y asistencia aumentada

Cómo la convergencia entre embodied AI, robótica cognitiva y sensores afectivos se aplica al cuidado de personas depen[…]

Leer más
La infraestructura de innovación: cómo las oficinas de transferencia y nuevos fondos públicos están impulsando el deep tech en España

La infraestructura de innovación: cómo las oficinas de transferencia y nuevos fo[...]

El ecosistema español de la innovación se apoya en mecanismos de intermediación que buscan conectar investigadores, e[…]

Leer más

Últimas noticias

Carlos Alejaldre: cómo construir una industria viable de energía de fusión

Carlos Alejaldre: cómo construir una industria viable de energía de fusión

Del laboratorio al mercado: claves para escalar la energía de fusión según Carlos Alejaldre en el Future Trends Forum

Leer más
Del aula al emprendimiento digital: el viaje de Arkaitz Bastida desde Akademia hasta Sabbatic

Del aula al emprendimiento digital: el viaje de Arkaitz Bastida desde Akademia has[...]

Arkaitz Bastida, cofundador y CEO de Sabbatic, nos cuenta cómo su paso por Akademia marcó su forma de innovar, emprend[…]

Leer más
Gobernar la IA: el reto de tomar decisiones con máquinas en la sala 

Gobernar la IA: el reto de tomar decisiones con máquinas en la sala 

La inteligencia artificial ya no solo automatiza tareas: también empieza a influir en decisiones estratégicas, desde l[…]

Leer más