The Simultaneous Localization and Mapping (SLAM) problem is widely acknowledged as one of the fundamental problem to solve in perception and robotics to produce actual mobile robotic agents. The problem itself is that of how can a mobile robot agent operate in an a priori unknown environment, using the sensory systems available (normally on itself) to perceive its surroundings, build a map with this knowledge, and localize itself in said map tracking its own position.
This relevance, combined with the diversity of approaches available to solve it, and the depth of the challenges it presents, makes the SLAM problem one of the more active areas of research in robotics. One of the most complex challenges in any approach is the data association, as it generally conveys hard a trade-off between robustness and computational time required, and can impact the whole architecture of a SLAM method.
In terms of sensors used, the field was originally dominated by range finder sensors, but visual SLAM research has grown in popularity in the last decade. Camera sensors have been expanding its capabilities and specifications thanks to the consumer demand for them. As a sensor, they provide lightning measurements of the projected points at known bearings, which through computer vision can be converted into bearing measurements for visual features, which can be themselves of several levels of complexity.
The same consumer demand has also pushed technical developments in MEMS and robotic devices with a direct impact in the field of cooperative robotics and the emergence of wearable device technology, where human can wear or carry devices with several sensors in an unobtrusive way. These technologies have opened many opportunities in for research in robotics, including the field of collaborative SLAM and the area of human-robot interaction (HRI).
This thesis is focused in the study and development of a visual SLAM methodology based on the delayed inverse-depth feature initialization (DI-D) monocular SLAM which can benefit and exploit the advantages of working in a HRI collaborative framework. In order to achieve this, the research is focused in two different areas. Firstly, the known and tested DI-D monocular SLAM is studied: its procedures and algorithms detailed and analyzed; with emphasis in the data association problem (DA). The DA process is reviewed, and a new validation algorithm is introduced to strengthen and give robustness to the data association technique used.
Once the DI-D has been studied and updated the HRI collaborative framework is introduced, with an initially focus into solving one of its inconveniences: the requirement of a scaled metric initialization with a priori knowledge. The HRI is introduced by deploying into a human being a custom built wearable device which includes a camera and some other sensors. The data from this secondary monocular sensor, whose pose is approximately known with respect to the camera used to solve the SLAM problem, allows speeding up the feature initialization process of the DI-D, and even ignoring the requirement of scale initialization.
As the introduction of the HRI framework was successful, its advantages were further expanded to the rest of the SLAM process, including the measurement and update steps. This integration was performed based in a virtual sensor methodology, where the collaborative measurement process was treated as a single sensor with its specifications, allowing seamless fusion into the EKF-SLAM (Extended Kalman Filter SLAM). To evaluate the specific impact of the HRI with respect to the behaviour of the secondary camera, several new metrics have been proposed and studied.
All the methods have been proved and validated through experimentation with real data. When it was found relevant, the experiments were evaluated in real-time scenarios, and several simulations have been included when needed to prove some theoretical hypothesis.
El problema de Localización y Mapeado Simultáneos (SLAM) es ampliamente reconocido como uno de los desafíos fundamentales a resolver en los campos de percepción y robótica autónomas para llegar a producir agentes robóticos móviles. El problema en si trata de como un robot podría, en un entorno a priori desconocido, construir un mapa con la información disponible vía sus sensores, y localizarse y navegar con respecto a este mismo mapa, estimando su posición. La importancia de este problema, junto con la gran variedad de estrategias y la complejidad de los subproblemas que plantean, hace que el campo de SLAM sea una de las áreas más activas de investigación en robótica. Uno de los mayores desafíos dentro del campo de SLAM, que comparte con otros ámbitos de la robótica y la percepción autónoma, es el problema de Asociación de Datos (data association, DA); ya que normalmente implica un precario equilibrio entre la eficacia y robustez de los resultados obtenidos, y la potencia y tiempo de cálculos necesarios para llegar a ellos, siendo un factor determinante en muchas estrategias de SLAM. En cuanto a sensores usados, el campo ha sido dominado por telémetros de barrio, pero durante la última década la investigación en SLAM visual produjo estrategias de gran impacto. Esto se debe en gran medida a que la demanda para el consumo de sensores de cámara ha incrementado sus prestaciones y bajado sus precios. La cámara, como sensor, produce mediciones de intensidad lumínica sobre puntos proyectados en orientaciones conocidas, que pueden convertirse en mediciones sobre características visuales aplicando métodos de visión por computador. Estas características visuales suelen ser puntos, pero pueden presentar múltiples niveles de complejidad. La misma demanda de los mercados ha impulsado el desarrollo de sensores micro-electro-mecánicos y otros dispositivos robóticos que han contribuido a desarrollar la robótica colaborativa y las tecnologías de dispositivos vestibles (wearable). Éstas tecnologías han abierto muchos campos de investigación dentro del problema de SLAM, como por ejemplo el SLAM colaborativo y el basado en interacción robot-humano (human-robot interaction, HRI). Esta tesis se centra en el estudio y desarrollo de un método de SLAM visual basado en la técnica delayed inverse depth feature initialization monocular SLAM (DI-D monocular SLAM), que pueda integrarse en un marco de SLAM colaborativo con interacción robot-humano. Con éste fin la investigación se ha centrado en dos áreas distintas. Primeramente la técnica DI-D SLAM ha sido estudiada y analizada, revisando sus procesos y algoritmos, con énfasis en el problema de asociación de datos. El estudio del problema de DA ha dado lugar a un nuevo algoritmo de validación para asociación de datos, que permite evitar información espuria y hacer al proceso más robusto. Una vez analizado y actualizado el método DI-D SLAM, se procede a introducir el marco de colaboración HRI, enfocándolo inicialmente en resolver uno de los inconvenientes del método de SLAM: el requisito de introducir parte del mapa a priori para mantener la estimación de la escala. Para introducir la colaboración HRI se emplea un dispositivo vestible que incorpora una cámara secundaria y otros sensores. La información de esta cámara secundaria, cuya pose con respecto a la cámara de SLAM principal es aproximadamente conocida, permite acelerar la introducción de características en el método DI-D SLAM y evitar el requisito de inicializar la escala del mapa. La introducción del método de percepción colaborativa permitido expandir sus beneficios a otras partes y problemas del método DI-D SLAM. Para ello se integró por completo en el proceso de medida y corrección del filtro de Kalman extendido (EKF) usado, tratando la medición colaborativa como un sensor virtual. Para poder evaluar cómo influye el comportamiento sistema HRI se derivaron varias métricas nuevas, que fueron estudiadas con una batería de secuencias experimentales.