DALL-E Mini: creando imágenes a partir de inteligencia artificial
Desde hace tiempo, analizo en el newsletter Redacciones5G las diferentes formas en que la inteligencia artificial está impactando en los medios del mundo. Particularmente sigo de cerca las aperturas y lanzamientos de este tipo de proyectos desde una perspectiva periodística para re-pensar su potencialidad dentro de las redacciones.
En este sentido, durante los últimos años ha llamado la atención DALLE-2, un desarrollo cerrado de Google basado en un sistema capaz de generar imágenes realistas o ilustraciones a partir de descripciones escritas por parte de sus personas usuarias. Al ser un proyecto cerrado, hemos visto una serie de imágenes publicadas en la Web pero no hemos podido probarlo.
La noticia es que, durante el mes de junio, se lanzó de forma abierta DALL·E mini, una aplicación basada en el concepto de DALLE-2, desarrollada por el programador Boris Dayma durante una competición de Google y Hugging Face. Se trata de un generador OpenAI, de código abierto, publicado en GitHub, que es capaz de generar imágenes similares al proyecto de Google, pero con una infraestructura mucho más pequeña.
Desde su lanzamiento, estoy experimentándola a diario y sus resultados son increíbles. En líneas generales, su funcionamiento es simple: podés escribir algo que quieras ver y el primer paso del sistema será analizar tus palabras. Posteriormente, la IA buscará esas palabras en Internet y asociará las imágenes publicadas al texto requerido, así como los rasgos distintivos que hacen que esa imagen sea la definición de la palabra.
Los resultados se presentan en forma de mosaico a partir de una composición que el sistema realiza con los fragmentos de las imágenes que ha buscado y asociado a las palabras enviadas por usuarios, aplicando, por ejemplo, capas de estilos pictóricos, infinidad de estéticas o hechos históricos.
Un excelente ejercicio para comprender sus variables y diferentes aplicaciones es comenzar a seguir la cuenta de Twitter Weird Dall-E Mini Generations, que publica diariamente imágenes generadas por el sistema. Entre ellas, un Demogorgon jugando al básquet, unas crocs tácticas, Walter White como una carta de Clash Royal o el mismo White pintado por Van Gogh, Karl Marx en la pantalla de carga de GTA V, el diseño de concept cars a partir de la película Cars, Barack Obama ilustrado por Tim Burton o el asesinato de JFK como un set de Lego que ves aquí arriba.
Se sabe que todas las inteligencias artificiales pasan por un perÍodo de entrenamiento en el que van mejorando sus resultados a medida que las y los usuarios la utilizan. Gracias a las miles de peticiones que recibe a diario, el sistema incorpora mejores capacidades de procesamiento.
En cuanto a su potencialidad para el uso dentro de medios y redacciones, creo que estamos ante la punta del iceberg de lo que podremos hacer en el futuro cercano con este tipo de desarrollos. Previamente, hemos visto algo similar con la generación automática de textos informativos que ha crecido de gran forma en la industria periodística.
Creación de imágenes para acompañar artículos tradicionales, desarrollo de diversas opciones ilustrativas para comparar rendimientos de lectura y tiempos de visualización, generación de sistemas de diseño visual para nuevos productos digitales y remix de imágenes, son sólo algunas ideas iniciales para su aplicación. En el envío 18 de nuestro newsletter, nos preguntábamos si ¿sueñan los bots con artículos de opinión?, creo que ya lo están haciendo con imágenes.
Como bonus para comprender mejor los alcances de esta tecnología, te dejo este video de Carlos Santana Vega, divulgador de IA, en el que lo testea a fondo, y un video de VOX, que explica muy bien cómo se creó y cómo funciona actualmente el sistema.
Más info: