Investigadores del Instituto Tecnológico de Massachusetts (MIT) han desarrollado un marco de memoria a largo plazo que permite a los robots construir y consultar con rapidez un modelo detallado de entornos complejos y de gran escala. El sistema combina mapas 3D con descripciones semánticas ricas y puede responder en lenguaje natural a preguntas sobre objetos, lugares y momentos, con rendimiento suficiente para su uso en tiempo real en robots móviles.

La investigación aborda una limitación habitual en la robótica colaborativa: la dificultad de reproducir una memoria espaciotemporal similar a la humana. En un entorno industrial, por ejemplo, una persona puede recordar en qué contenedor dejó una pieza parcialmente ensamblada la noche anterior, mientras que un robot tendría problemas para localizarla a partir de una instrucción verbal.
El avance podría permitir que, en el futuro, un operario pidiera a un asistente robótico que recuperase un componente iniciado el día anterior. Además de su aplicación en robótica, el método podría utilizarse en sistemas de realidad aumentada para ayudar a trabajadores de mantenimiento a detectar anomalías o para orientar a usuarios en desplazamientos.
Memoria espaciotemporal para robots basada en mapas 3D y lenguaje
El marco ha sido desarrollado por el equipo de Luca Carlone, profesor asociado del Departamento de Aeronáutica y Astronáutica del MIT, investigador principal del Laboratory for Information and Decision Systems (LIDS) y director del MIT SPARK Laboratory. En el trabajo participan Nicolas Gorlo, estudiante de posgrado del MIT y autor principal, y Lukas Schmid, antiguo investigador del MIT y actualmente profesor en la Universidad Tecnológica de Núremberg, en Alemania. La investigación se presentó recientemente en la Conference on Computer Vision and Pattern Recognition (CVPR).
El objetivo del sistema es dotar a los robots impulsados por inteligencia artificial de una memoria capaz de vincular interacciones reales, observaciones de sensores, ubicaciones y referencias temporales. Según el planteamiento del equipo, se trata de acercar la capacidad de razonamiento de los robots a preguntas cotidianas sobre el entorno, como dónde quedó un objeto determinado.
Para ello, los investigadores integraron dos líneas de trabajo: la visión por computador multimodal y la cartografía robótica. Los modelos de visión pueden describir objetos con gran riqueza, pero suelen procesar anotaciones individuales. Los sistemas de mapeo robótico, por su parte, crean mapas 3D de espacios como viviendas, campus o instalaciones, aunque normalmente incorporan menos detalle sobre los objetos o requieren un coste computacional elevado.
DAAAM acelera la anotación de objetos y mejora la precisión
Asimismo, el método resultante se denomina Describe Anything, Anywhere, Anytime, at Any Moment (DAAAM). A medida que el robot se desplaza, asocia descripciones detalladas a los elementos que observa. Puede registrar, por ejemplo, que un edificio del campus del MIT es el Stata Center y presenta un tipo concreto de arquitectura, o que un aparcamiento para bicicletas contiene cinco unidades y que la bicicleta roja tiene una rueda pinchada.
DAAAM almacena esa información en una representación basada en mapas 3D organizada espacialmente, de modo que los objetos quedan agrupados por regiones. Así, el robot puede relacionar la bicicleta roja con la rueda pinchada con el aparcamiento situado fuera del Stata Center.
Además, las técnicas capaces de generar descripciones ricas suelen necesitar varios segundos para anotar unos pocos objetos, un ritmo insuficiente cuando un robot puede detectar cientos de elementos durante minutos de exploración. Para resolverlo, DAAAM agrupa objetos cercanos y emplea un método de optimización que selecciona fotogramas clave con una visión clara de varios objetos, lo que permite describir múltiples elementos en paralelo y multiplicar por diez la velocidad de cálculo.
Durante la exploración, el sistema vincula cada conjunto de anotaciones a varios objetos situados en una zona concreta del mapa 3D. Los investigadores señalan que cada objeto se anota una sola vez, lo que facilita el funcionamiento en tiempo real en entornos de gran escala y permite responder a consultas variadas sobre ubicaciones y elementos del espacio.
Una vez construida la memoria espacial, DAAAM debe recuperar datos de una base amplia de objetos y descripciones. Para ello utiliza un modelo de lenguaje de gran tamaño (LLM) que activa diferentes herramientas de búsqueda, con el fin de localizar información específica y reducir el riesgo de respuestas inventadas. El sistema puede contestar en pocos segundos a preguntas formuladas por el usuario.
Si se consulta al robot por una escultura vista cerca de un edificio del campus del MIT, DAAAM puede recurrir a una búsqueda semántica basada en la palabra escultura o a otra herramienta centrada en la localización del edificio. En las pruebas comparativas realizadas frente a otros métodos, el sistema obtuvo una precisión entre un 21% y un 53% superior, en función del tipo de pregunta.
El equipo trabaja ahora en ampliar DAAAM para que pueda registrar eventos significativos ocurridos en el entorno e incorporar niveles de confianza en sus respuestas.
La entrada Investigadores del MIT desarrollan un sistema que permite a los robots recordar su entorno aparece primero en CASADOMO.