Diseño y generación semi-automática de patrones adaptables para el reconocimiento de entidades

  1. Marrero Llinares, Mónica
Supervised by:
  1. Jorge Morato Lara Director
  2. Sonia Sánchez Cuadrado Director

Defence university: Universidad Carlos III de Madrid

Fecha de defensa: 21 May 2013

Committee:
  1. Juan Lloréns Morillo Chair
  2. Rafael Valencia García Secretary
  3. Roberto Carniel Committee member

Type: Thesis

Abstract

La tarea de Reconocimiento de Entidades Nombradas (NER) facilita la gestión de información y tiene utilidad en otras áreas, como Anotación Semántica, Sistemas de Búsqueda de Respuesta, Población de Ontologías y Minería de Opiniones. Pero de acuerdo a los resultados de algunos foros, el área de NER podría considerarse resuelta. La tesis profundiza en la evaluación del área y muestra que parece haberse estancado en el reconocimiento de entidades típicas, para las que habitualmente existen recursos anotados. Esto contrasta con la diversidad de tipos de entidad y dominios de aplicación actuales. Este trabajo contribuye con el diseño de un método para el reconocimiento de entidades más consecuente con el problema de no disponer de corpus anotados para cualquier tipo de entidad requerida y sobre cualquier dominio. El método diseñado integra los siguientes aspectos: Transparencia: patrones legibles y con alto grado de estandarización. Flexibilidad: posibilidad de incorporar diferentes tipos de atributos capaces de describir las entidades o su contexto. Potencia: reconocimiento de diferentes estructuras del lenguaje en los documentos. Coste: uso de un pequeño conjunto de entidades como semillas iniciales y técnicas de aprendizaje activo para guiar al usuario en el proceso de anotación. Efectividad: tasas de efectividad competitivas en relación al estado del arte, medidas en términos de precisión y exhaustividad. Los resultados obtenidos son evaluados mediante el uso de corpus públicos anotados con diferentes tipos de entidades, y comparados con otros trabajos relacionados en la literatura científica.