¿Podrá, algún día, la tecnología (Inteligencia Artifical) crear como lo hace un artista?

Para la inteligencia artificial (IA) ya no representa un desafío transformar de audio a texto. Traducir de un idioma a otro, tomar millones de textos y crear uno nuevo, hacer búsquedas en fotos o “googlear” imágenes ingresando un texto. Sin embargo, entre los límites existentes se cuenta la posibilidad de que una máquina cree dibujos de forma autónoma a partir de instrucciones habladas de un ser humano. Tal como puede hacerlo un pintor.

Un avance cada vez más posible: investigadores del Instituto Allen de Inteligencia Artificial (AI2)  desarrollaron el “modelo de lenguaje visual”, que puede generar imágenes a partir del ingreso de un texto. El resultado es aún extravagante, pero se considera un primer paso hacia una IA más avanzada y robots más inteligentes.

“Para saber si las máquinas entienden podemos analizar si son capaces de comprender el lenguaje como los seres humanos lo hacen”, reflexiona Juan Echagüe. Director de Investigación y Desarrollo en Practia. “Un famoso filósofo decía que la prueba de fuego para saber si entendemos un lenguaje es traducirlo: las computadoras ya pueden traducir un texto”, agrega. Echagüe considera que el modelo de lenguaje visual es prometedor. “Aún no tienen la calidad que se necesitan para trabajar en profesiones especializadas, pero la evolución de inteligencia artificial en los últimos años y las técnicas disponibles me hacen pensar que estamos muy cerca”, explica.

Avances tecnológicos

Los avances en tratamiento de imágenes de los últimos tiempos fueron notables. Hoy se puede tomar una foto, darle movimiento y hasta realizar a partir de ella un video corto. También es posible preguntarle a una computadora qué hay en una imagen y que identifique, por ejemplo, si se ven personas y si son hombres o mujeres, si aparecen animales o frutas (y hasta a qué especie corresponden o de qué color son). “Nosotros tenemos aplicaciones de IA funcionando con robots que entran en las reuniones de Zoom con el objetivo de medir lo que sucede durante los encuentros virtuales y que, de ser necesario, podrían describir qué ocurre en la reunión”, ejemplifica Echagüe.

“Google entiende una descripción de una imagen, pero muestra resultados que toma de internet, no crea una nueva. El desafío de IA es que la computadora sea capaz de crear algo nuevo, que ante el dictado de un usuario. Por ejemplo, decirle: ‘quiero una imagen que tenga un perro en una carretera’. Y dibuje, utilizando las mismas tecnologías que se usan para las traducciones”, detalla el especialista de Practia.

La cercanía del futuro

“Cambiando una palabra se aprende el rol que tiene ese término en el lenguaje” -dice Echagüe y continúa- En este caso sucede más o menos lo mismo: hay que tratar de agrandar los píxeles para que, del aprendizaje a partir de millones de imágenes sea posible construir algo nuevo”, agrega. Confiesa que el resultado obtenido hasta el momento con IA es perturbador porque no son imágenes incompletas, sino trazos en los que aparecen personas sin detalles de sus caras, por ejemplo. “Posiblemente, si en lugar de trabajar con pixeles lo hiciéramos tomando regiones los resultados serían mejores, pero no dudo que ya hay muchos especialistas tratando de mejorar este desarrollo”, asegura.

Inteligencia Artificial

Actualmente existen formas más sencillas de construir imágenes y películas con Photoshop o código, tomando imágenes de las bibliotecas para desarrollar juegos y programar utilizando esos recursos. El nuevo modelo mediante IA habilitaría además otras aplicaciones.

“Tal vez necesitemos crear imágenes propias para un colaborador en particular, porque sabemos que lo ponen de buen ánimo o vuelven más productivo, y quizás sea necesario que no sean tomadas de archivo”, detalla Echagüe.

En la industria del entretenimiento también hay un importante campo de acción. El objetivo es encontrar la calidad fotográfica, avanzar hacia un sentido de realismo. Por otro lado, si empezamos a generar más contenidos visuales para realidad virtual. Los sistemas para sintetizar imágenes van a tener mucho más sentido. Más aún si se piensa en prestaciones personalizadas.

“Un artista plástico puede hacer una, dos o treinta obras, pero no millones”, dice Echagüe. “¿Cómo hace Netflix para generar la oferta de películas y series con las imágenes o carátulas que me gustan sólo a mí? Con un mecanismo de IA subyacente que dice cuáles son las imágenes que suelo cliquear, qué película elijo habitualmente y qué tipo de publicidad o imágenes me atraen”, relata.

“La idea de la personalización es un fuerte impulsor de utilización de Inteligencia Artificial porque te permite resolver 100 millones de veces el mismo problema. Dando una solución diferente para cada uno”, agrega.

Conclusiones

Resulta complicado estimar plazos porque es una investigación reciente, pero Echagüe considera que no falta mucho tiempo para que este desarrollo arroje los resultados esperados. “Cuando nos alejamos del horizonte sobre lo que estamos trabajando aparecen soluciones alternativas. Seguramente las que vemos hoy con inteligencia artificial van a competir con otras que aún no conocemos”, dice.

El camino hacia la creación de imágenes recién comienza, pero no sería raro que en algún momento -como ocurrió con otras tecnologías. Los pequeños pasos de hoy se transformen en grandes saltos. “El sueño es que podamos procesar con la computadora y tecnologías de IA el guion de una película y casi al mismo tiempo estemos mirándola. Y creo que ocurrirá antes de lo que pensamos”, concluye Echagüe.