Las dos imágenes que la IA es incapaz de hacer bien por mucho que se lo pidas y por qué sucede

En muy pocos años, puede que demasiado pocos, la inteligencia artificial ha mejorado hasta, en muchas ocasiones, lograr tanto imágenes estáticas como en movimiento (vídeo) prácticamente indistinguibles de la realidad. Como ejemplos de esto último tenemos los últimos modelos tanto de Sora, de OpenAI, como de Veo 2, de Google, que son capaces de dejarnos con la boca abierta en casi cualquier clip recreado a raíz de nuestras peticiones.Sin embargo, hay al menos dos cosas que la IA es incapaz, a día de hoy, de recrear debidamente, y probablemente sean muchas más, y tiene una sencilla explicación.Si no quieres frustrarte, no le pidas que haga estoZurdosActualmente se calcula que un 12 % de la población es zurda, aunque la cifra varía según informes entre el 9 y el 18 %, por lo que resulta extraño que, con millones de personas que manejan la mano izquierda, a la IA le resulte imposible recrear esto a la hora de generar imágenes.Bajo la orden "Haz una imagen de una persona escribiendo con la mano izquierda, es zurdo. No usa la mano derecha para nada", estos son los resultados que hemos obtenido:Grok y Dall-E:Pulsa aquí para ver la galería de imágenes completaComo vemos, dos de los modelos más usados son incapaces, tras varias pruebas, de generar personas que escriban con la mano izquierda, aunque sí les concedemos que las manos, especialmente los dedos, cada vez los recrean de manera más fidedigna, aunque todavía hay trabajo por hacer, pero será cuestión de meses.Copilot y DeepAI:Pulsa aquí para ver la galería de imágenes completaMás ejemplos de cómo la IA no distingue entre zurdos y diestros. Otras como Venice o Leonardo arrojaron los mismos resultados.Relojes marcando una hora determinadaDe manecillas, obviamente, aunque con los digitales también tiene problemas pues la representación de caracteres, ya sean letras o números, es algo en lo que todavía se está trabajando. La orden dada fue "Reloj marcando con sus manecillas las 15:35".Grok y Dall-E:Pulsa aquí para ver la galería de imágenes completaUnos números bien definidos en su mayoría, algo menos en el caso de Dall-E, cuyas manecillas sin embargo no coinciden con lo pedido por bastante.Copilot y DeepAI:Pulsa aquí para ver la galería de imágenes completaMientras que Copilot ha errado por bastante a la hora de dibujar los números de la esfera, DeepAI no ha tenido problemas. Eso sí, ambos se empeñan en ofrecernos una hora cercana a las dos menos diez.La falta de entrenamiento y ejemplos como principal problemaLa incapacidad de la IA para generar imágenes precisas en casos como personas escribiendo con la mano izquierda o relojes marcando una hora específica se debe en gran medida a las deficiencias en los datos de entrenamiento. Los modelos generativos se entrenan con grandes conjuntos de datos recopilados de internet, pero no siempre incluyen suficientes ejemplos representativos de situaciones específicas.Si los datos están desbalanceados o contienen errores, como etiquetas incorrectas o imágenes ambiguas, el modelo aprende patrones poco fiables, lo que da lugar a resultados incoherentes en casos menos comunes o con detalles complejos.Por ejemplo, los relojes pueden aparecer con manecillas desalineadas porque el modelo no ha aprendido las reglas exactas de su funcionamiento, solo patrones generales extraídos de unos datos en los que, por agradar al ojo, los publicistas hacen que éstos siempre marquen las dos menos diez.La IA no es inteligente como talAdemás, la IA carece de comprensión contextual, lo que agrava el problema. Los modelos generativos funcionan mediante correlaciones estadísticas, pero no tienen un entendimiento conceptual del mundo. Esto significa que no pueden interpretar la funcionalidad de los objetos ni las relaciones espaciales necesarias para representarlos correctamente.Una mano izquierda sosteniendo un bolígrafo puede parecer un cambio trivial para un ser humano, pero para la IA requiere reconocer y recrear un conjunto específico de interacciones físicas y anatómicas que probablemente no estén bien representadas en los datos de entrenamiento.De manera similar, los relojes marcando una hora específica implican seguir reglas precisas de sincronización entre las manecillas, algo que los modelos actuales no entienden porque no tienen conocimiento explícito de estas normas.El artículo Las dos imágenes que la IA es incapaz de hacer bien por mucho que se lo pidas y por qué sucede fue publicado originalmente en Andro4all.

Jan 12, 2025 - 11:42
Las dos imágenes que la IA es incapaz de hacer bien por mucho que se lo pidas y por qué sucede

En muy pocos años, puede que demasiado pocos, la inteligencia artificial ha mejorado hasta, en muchas ocasiones, lograr tanto imágenes estáticas como en movimiento (vídeo) prácticamente indistinguibles de la realidad. Como ejemplos de esto último tenemos los últimos modelos tanto de Sora, de OpenAI, como de Veo 2, de Google, que son capaces de dejarnos con la boca abierta en casi cualquier clip recreado a raíz de nuestras peticiones.

Sin embargo, hay al menos dos cosas que la IA es incapaz, a día de hoy, de recrear debidamente, y probablemente sean muchas más, y tiene una sencilla explicación.

Si no quieres frustrarte, no le pidas que haga esto

Zurdos

Actualmente se calcula que un 12 % de la población es zurda, aunque la cifra varía según informes entre el 9 y el 18 %, por lo que resulta extraño que, con millones de personas que manejan la mano izquierda, a la IA le resulte imposible recrear esto a la hora de generar imágenes.

Bajo la orden "Haz una imagen de una persona escribiendo con la mano izquierda, es zurdo. No usa la mano derecha para nada", estos son los resultados que hemos obtenido:

  • Grok y Dall-E:

Pulsa aquí para ver la galería de imágenes completa

Como vemos, dos de los modelos más usados son incapaces, tras varias pruebas, de generar personas que escriban con la mano izquierda, aunque sí les concedemos que las manos, especialmente los dedos, cada vez los recrean de manera más fidedigna, aunque todavía hay trabajo por hacer, pero será cuestión de meses.

  • Copilot y DeepAI:

Pulsa aquí para ver la galería de imágenes completa

Más ejemplos de cómo la IA no distingue entre zurdos y diestros. Otras como Venice o Leonardo arrojaron los mismos resultados.

Relojes marcando una hora determinada

De manecillas, obviamente, aunque con los digitales también tiene problemas pues la representación de caracteres, ya sean letras o números, es algo en lo que todavía se está trabajando. La orden dada fue "Reloj marcando con sus manecillas las 15:35".

  • Grok y Dall-E:

Pulsa aquí para ver la galería de imágenes completa

Unos números bien definidos en su mayoría, algo menos en el caso de Dall-E, cuyas manecillas sin embargo no coinciden con lo pedido por bastante.

  • Copilot y DeepAI:

Pulsa aquí para ver la galería de imágenes completa

Mientras que Copilot ha errado por bastante a la hora de dibujar los números de la esfera, DeepAI no ha tenido problemas. Eso sí, ambos se empeñan en ofrecernos una hora cercana a las dos menos diez.

La falta de entrenamiento y ejemplos como principal problema

La incapacidad de la IA para generar imágenes precisas en casos como personas escribiendo con la mano izquierda o relojes marcando una hora específica se debe en gran medida a las deficiencias en los datos de entrenamiento. Los modelos generativos se entrenan con grandes conjuntos de datos recopilados de internet, pero no siempre incluyen suficientes ejemplos representativos de situaciones específicas.

Si los datos están desbalanceados o contienen errores, como etiquetas incorrectas o imágenes ambiguas, el modelo aprende patrones poco fiables, lo que da lugar a resultados incoherentes en casos menos comunes o con detalles complejos.

Por ejemplo, los relojes pueden aparecer con manecillas desalineadas porque el modelo no ha aprendido las reglas exactas de su funcionamiento, solo patrones generales extraídos de unos datos en los que, por agradar al ojo, los publicistas hacen que éstos siempre marquen las dos menos diez.

La IA no es inteligente como tal

Además, la IA carece de comprensión contextual, lo que agrava el problema. Los modelos generativos funcionan mediante correlaciones estadísticas, pero no tienen un entendimiento conceptual del mundo. Esto significa que no pueden interpretar la funcionalidad de los objetos ni las relaciones espaciales necesarias para representarlos correctamente.

Una mano izquierda sosteniendo un bolígrafo puede parecer un cambio trivial para un ser humano, pero para la IA requiere reconocer y recrear un conjunto específico de interacciones físicas y anatómicas que probablemente no estén bien representadas en los datos de entrenamiento.

De manera similar, los relojes marcando una hora específica implican seguir reglas precisas de sincronización entre las manecillas, algo que los modelos actuales no entienden porque no tienen conocimiento explícito de estas normas.

El artículo Las dos imágenes que la IA es incapaz de hacer bien por mucho que se lo pidas y por qué sucede fue publicado originalmente en Andro4all.

What's Your Reaction?

like

dislike

love

funny

angry

sad

wow