Sopa

¿Qué tienen en común Wall-E y Salvador Dalí? Conoce DALL-E 2 | noticias inteligentes

El monstruo de la olla de sopa hecho de spinning, hecho por DALL-E

El monstruo de la olla de sopa hecho de spinning, hecho por DALL-E 2.
OpenAI a través de Instagram

Imagina escribir esta frase en una pantalla de computadora en blanco: “Un tazón de sopa parece un monstruo”. Después de unos segundos, una criatura tejida con lana, bañada en sopa, puede sonreírte.

Tal vez sea la “pintura al estilo de Andy Warhol de un bulldog francés con gafas de sol” lo que está buscando, o “dragones de arcilla polimérica comiendo pizza en un bote”. Si puedes soñarlo, DALL-E 2 puede crearlo.

ADVERTISEMENT

En enero de 2021, el laboratorio de inteligencia artificial OpenAI creó DALL-E, una red neuronal que crea imágenes de dibujos animados a partir de comentarios de texto. Ahora, poco más de un año después, ha llegado DALL-E 2, con un sistema más rápido que ofrece composiciones más realistas a resoluciones más altas.

Fusionando los nombres del robot WALL-E y del artista Salvador Dalí, DALL-E 2, al igual que su predecesor, ha sido entrenado para aprender la relación entre las imágenes y el texto utilizado para describirlas. Sin embargo, la nueva tecnología funciona gracias a un proceso llamado “difusión”. Esencialmente, el sistema reorganiza un patrón aleatorio de puntos en una imagen a medida que reconoce ciertos aspectos de la forma.

Alex Nicholl, uno de los investigadores responsables del desarrollo del DALL-E 2, caminó recientemente junto a Cade Metz, un reportero de tecnología con Los New York Times, a través de una demostración. Cuando escribió “una tetera con forma de aguacate”, la IA produjo diez imágenes diferentes de una “tetera de aguacate”, tanto grabadas como no. En una serie de experimentos, Nicole demostró la capacidad de DALL-E 2 para editar fotos. Pidió “un oso de peluche tocando la trompeta bajo el agua”, y la imagen resultante incluía fielmente pequeñas burbujas que salían del instrumento. Entonces Nicole limpió la trompeta y, con un simple comando, la cambió por una guitarra.

La edición es una mejora distinta del DALL-E original, informa Adi Robertson para borde. Con una función llamada en pintura, los usuarios pueden agregar o eliminar elementos de una foto existente, explica, y otra función, las diferencias, hacen posible la combinación de dos imágenes.

La primera iteración se basó en GPT-3, un modelo creado por OpenAI que predice las siguientes palabras en una secuencia. En el caso de DALL-E, espera píxeles en lugar de palabras. Sin embargo, DALL-E 2 usa CLIP, la red neuronal OpenAI, o un sistema matemático diseñado en una red de neuronas en el cerebro, según ParticiparAndrés Tarantola. Esta técnica se entrena con una variedad de imágenes y lenguaje natural disponible en Internet. Por ejemplo, al observar patrones en miles de imágenes de osos, el sistema aprende a identificar al oso.

CLIP traduce un comando de texto en una “forma intermedia” que captura atributos importantes de cualquier imagen que cumpla con los requisitos del comando, informa Will Douglas Heaven de Revisión de tecnología del MIT. A continuación, otro tipo de red neuronal llamada modelo de difusión genera una imagen con estas características. “Pregúntale o pregúntale [DALL-E 2] para generar imágenes de astronautas a caballo, osos de peluche o nutrias marinas al estilo de Vermeer, realizadas a través de fotografías realistas”, escribe Heaven.

Sin embargo, la tecnología DALL-E 2 no está completamente libre de fallas. Ocasionalmente, puede no reconocer lo que se dice. Por ejemplo, cuando Nicole le pidió que “pusiera la Torre Eiffel en la luna”, colocó la luna en el cielo sobre la torre, en veces.

Además de los inconvenientes de la automatización, DALL-E 2 también plantea cuestiones éticas. Aunque las imágenes generadas por el sistema contienen una marca de agua que indica que el trabajo fue generado por IA, es probable que se recorte, según borde. Para evitar daños potenciales, OpenAI lanza una política de usuario que prohíbe que el sistema requiera la producción de imágenes ofensivas, incluida la violencia, la pornografía o los mensajes de carácter político. Además, los usuarios no podrán pedir a la IA que haga fotos de personas conocidas basándose en el nombre para evitar abusos.

La herramienta aún no se ha compartido con el público, pero los investigadores pueden registrarse en línea para obtener una vista previa del sistema. OpenAI planea eventualmente llevar la tecnología a la comunidad creativa, para que personas como los diseñadores gráficos puedan usar nuevos atajos al desarrollar imágenes digitales, según Los New York Times. Los diseñadores de productos, los artistas y los desarrolladores de juegos de computadora también pueden encontrarlo como una herramienta útil, informa Jeremy Kahn. suerte.

“Esperamos que herramientas como esta democraticen la capacidad de las personas para crear lo que quieran”, dice Nicholl. suerte.

About the author

paydayi