Diseño de una arquitectura de localización geográfica para entornos de interior basada en información multisensor = a multisensor architecture for geographical positioning in indoor environments

  1. Ruiz Ruiz, Antonio Jesús
Dirixida por:
  1. Oscar Cánovas Reverte Director
  2. Pedro Enrique López de Teruel Alcolea Director

Universidade de defensa: Universidad de Murcia

Fecha de defensa: 17 de decembro de 2014

Tribunal:
  1. Alberto Ruiz García Presidente
  2. Félix J. García Clemente Secretario
  3. Pablo Bustos García de Castro Vogal
  4. Mikkel Baun Kjaergaard Vogal
  5. Ana María Bernardos Vogal
Departamento:
  1. Ingeniería y Tecnología de Computadores

Tipo: Tese

Resumo

Resumen En esta tesis presentamos la arquitectura de un sistema de localización que hace uso de los datos obtenidos a partir de los múltiples sensores disponibles en los smartphones actuales. Nuestro principal objetivo es ofrecer una solución capaz de soportar servicios basados en localización precisos, tales como aplicaciones de realidad aumentada, alcanzando un buen equilibrio entre la precisión y el rendimiento obtenidos. Presentaremos la arquitectura que abarca el diseño de nuestro sistema propuesto. Dicha arquitectura soporta el diseño y desarrollo de servicios capaces de combinar sensores de distinta naturaleza. Su estructura organizada en capas así como la especificación detallada de sus entidades, permite soportar diferentes configuraciones de sistemas. En primer lugar nos centramos en el análisis de técnicas de localización basadas en huellas de señales IEEE 802.11, siendo capaces de determinar la posición de un dispositivo con unos pocos metros de error de estimación. Para mejorar la eficiencia de nuestra solución se proponen varias mejora basadas en la integración de sensores adicionales, tales como la cámara o sensores inerciales. Haciendo uso de técnicas para la extracción de características invariantes a escala de imágenes, somos capaces de mejorar de forma notable la fiabilidad de nuestra solución. Además, damos un paso adelante en el análisis de imágenes mediante la integración de técnicas de visión por computador tales como visual structure from motion. Esto nos permite hacer reconstrucciones 3D del entorno en el que nos encontramos, y aplicando técnicas de resección de imagen, somos capaces de estimar de forma precisa la posición 3D y la rotación de un dispositivo en el espacio, llegando a obtener precisiones alrededor de los 15 centímetros de error de media. Nuestra propuesta multisensor trabaja en dos fases diferentes. En primer lugar se obtiene una estimación de grano grueso basándonos en las señales WiFi, la brújula digital y el acelerómetro. Para ello utilizamos técnicas basadas en mapas de huellas, técnicas probabilísticas y estimadores de movimiento. Después, haciendo uso de las imágenes capturadas por la cámara, se lleva a cabo un proceso de análisis de imágenes centrándonos en la zona concreta del modelo 3D construido delimitada por la estimación previa obtenida. Debido a las dificultades encontradas para construir modelos 3D precisos en entornos grandes y repetitivos, durante la fase de entrenamiento nuestra propuesta hace uso de técnicas de procesamiento de datos obtenidos mediante unidades de medición inerciales (IMU). Este proceso nos permite reducir los problemas de escalabilidad relacionados con la aparición de elementos estructurales similares en grandes escenarios de interior. El hecho de obtener modelos 3D precisos del entorno mejora la eficiencia de las técnicas de resección de cámara. En consecuencia, el error de estimación disminuye hasta los 5 centímetros de media, con tiempos de respuesta por debajo de los 250 milisegundos. El conjunto de técnicas presentas soporta una amplia variedad de aplicaciones basadas en localización, desde aquellas que requieren un posicionamiento aproximado hasta aquellas con altos requisitos de precisión. Abstract In this thesis we present the architecture of a localization system that uses data from multiple sensors available in commodity smartphones. Our main aim is to provide a solution able to support accurate location-based services, such as augmented reality applications, pursuing a good balance between accuracy and performance. We present the architecture which encompasses the overall system proposed. This architecture supports the design and development of services able to combine different types of sensors. Its layered structure and the specification of well-designed entities makes it able to support different system configurations. First we focus on the analysis of location fingerprinting techniques based on IEEE 802.11, feasible to determine the position of a device with a few meters of estimation error. Several refinements, based on the integration of additional sensors such as the camera or the inertial, are introduced to improve the efficiency of our solution. Using scale invariant features extracted from images we provide a solution for scene recognition that clearly improves the reliability of our result. Moreover, we take a step forward in the image analysis by including visual structure from motion techniques. It allows us to run off-line 3D reconstructions of the environment, and applying image resection techniques, we are able to provide precise estimations of both the 3D position and rotation of the device, obtaining an accuracy around 15 centimeters of error. Our multisensor solution works in two different stages. We first obtain a coarse-grained estimation based on WiFi signals, digital compass, and built-in accelerometer, making use of fingerprinting methods, probabilistic techniques, and motion estimators. Then, using the images captured by the camera, we carry out the image analysis focusing on the subset of the 3D model spatially delimited by the previously obtained coarse estimation. Because of the difficulties found to build accurate 3D models in large and repetitive environments, our proposal makes use of state-of-the-art IMU data processing techniques during the training phase, in order to reliably generate 3D representations of the targeted environment. This process solves typical scalability issues related to visually repetitive structures in large indoor scenarios. The fact of getting high accurate 3D representations of the testbed scenario improves the efficiency of camera resection techniques, reducing the estimation error to 5 centimeters, with response times below 250 milliseconds. The set of techniques presented supports a wide range of location-based applications, from those requiring a coarse estimation to those with high accuracy requirements.