Subtítulos de imágenes automatizados de Google y la clave para la “visión” artificial

No es ningún secreto que Google se ha estado volviendo más activo en la investigación en los últimos años, especialmente desde que se reorganizó significativamente en 2015. El 22 de septiembre de 2016 anunció el lanzamiento de código abierto de un software que puede detectar los objetos y el escenario de una imagen para generar automáticamente un título que lo describa. Por supuesto, no tiene el mismo nivel de creatividad que los seres humanos para crear la prosa dentro de los subtítulos, pero el codificador de imágenes también conocido como Inception V3 debería haber captado la atención por razones que trascienden lo superficial “mire los subtítulos puede hacer ”motivo. Software como este, de hecho, puede ser un trampolín hacia algo más grande en el camino hacia una inteligencia artificial más avanzada.

Los ojos pueden ver, pero la inteligencia “percibe”

aivision-percepción

La vista artificial ha estado con nosotros durante más de un siglo. Todo lo que tenga una cámara puede ver. Es algo muy básico. Pero incluso un ciego puede superar la comprensión de la cámara de lo que está mirando. Hasta hace muy poco, las computadoras no podían nombrar de manera fácil y precisa los objetos encontrados en las imágenes sin parámetros muy específicos. Decir verdaderamente que un objeto hecho por el hombre tiene “visión” significaría que al menos tiene una capacidad concreta para especificar qué está mirando, en lugar de simplemente mirarlo sin recopilar ningún contexto. De esta manera, el dispositivo podría reaccionar potencialmente a su entorno en función de la vista, al igual que lo hacemos nosotros. La percepción es una necesidad absoluta. Sin él, todos los sentidos que tenemos son inútiles.

Percepción a través de subtítulos automáticos de imágenes

subtítulos aivision

Aunque generalmente creemos que cada imagen vale más que mil palabras, Inception V3 no necesariamente comparte esa opinión. El software de subtítulos automáticos de imágenes tiene muy pocas cosas que decir sobre lo que ve, pero al menos tiene una comprensión básica y concreta de lo que está contenido dentro del marco que se le presenta.

Con esta información rudimentaria hemos dado un paso hacia la capacidad del software para comprender los estímulos visuales. Darle a un robot este tipo de poder le permitiría reaccionar a tales estímulos, llevando su inteligencia al nivel de la mayoría de los animales acuáticos básicos. Puede que no parezca mucho, pero si observa cómo les está yendo a los robots en este momento (cuando se prueban fuera de sus parámetros altamente restrictivos), encontrará que esto sería un gran salto en inteligencia en comparación con la forma amebiana en la que pueden percibir su propio entorno.

Qué significa esto para la IA (y por qué está lejos de ser perfecto)

El hecho de que ahora tengamos un software que (con un 93 por ciento de precisión) puede poner subtítulos en las imágenes significa que de alguna manera hemos superado el obstáculo de lograr que las computadoras le den sentido a sus entornos. Por supuesto, eso no significa que estemos cerca de terminar en ese departamento. También vale la pena mencionar que el Inception V3 fue entrenado por humanos a lo largo del tiempo y usa la información que “aprendió” para descifrar otras imágenes. Para tener una verdadera comprensión del entorno de uno, uno debe poder alcanzar un nivel de percepción más abstracto. ¿Está enojada la persona de la imagen? ¿Están dos personas peleando? ¿Por qué llora la mujer en el banco?

Las preguntas anteriores representan el tipo de cosas que nos hacemos cuando nos encontramos con otros seres humanos. Es el tipo de investigación abstracta que requiere que extrapolemos más información de la que puede hacer una imagen con subtítulos en Doohickey. No olvidemos esa guinda del pastel que nos gusta llamar reacción emocional (o “irracional”) a lo que vemos. Es por eso que consideramos las flores hermosas, las alcantarillas repugnantes y las papas fritas sabrosas. Es algo que todavía nos preguntamos si alguna vez lo lograremos a nivel de máquina sin realmente codificarlo. La verdad es que este tipo de fenómeno “humano” probablemente sea imposible sin una programación restrictiva. Por supuesto, eso no significa que no dejemos de intentarlo. Somos, después de todo, humano.

¿Crees que nuestros señores robots aprenderán a apreciar la complejidad de un pétalo de rosa bajo un microscopio? ¡Cuéntanoslo en un comentario!

¿Es útil este artículo?

Compártelo con alguien que le pueda resultar de ayuda

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *