Enriquecimiento de entidades de Wikidata mediante un modelo de descomposición y mapeado de categorías de Wikipedia

  1. Tomás Saorín
  2. Juan-Antonio Pastor-Sánchez 1
  1. 1 Universidad de Murcia
    info

    Universidad de Murcia

    Murcia, España

    ROR https://ror.org/03p3aeb86

Libro:
Actas del IV Congreso ISKO España-Portugal 2019, XIV Congreso ISKO España
  1. Jesús Tramullas (coord.)
  2. Piedad Garrido-Picazo (coord.)
  3. Gonzalo Marco-Cuenca (coord.)

Editorial: Sociedad Internacional para la Organización del Conocimiento (ISKO)-Capítulo Ibérico

ISBN: 978-84-09-20065-8

Año de publicación: 2020

Páginas: 451-466

Congreso: Congreso ISKO España (14. 2019. Barcelona)

Tipo: Aportación congreso

Resumen

El objetivo de este trabajo es explorar la relación entre las categorías asignadas a los artículos de Wikipedia con la descripción y metadatos generados en Wikidata. Se plantea utilizar la categorización de artículos de Wikipedia para enriquecer la descripción de entidades en Wikidata. Para ello se propone procesar los literales de las categorías mediante técnicas de procesamiento de lenguaje natural (PLN) estableciendo patrones que permitan identificar tanto propiedades como entidades o valores con los que construir declaraciones para una entidad. La secuencia de operaciones propuesta sería el siguiente: 1) Selección de un conjunto coherente de categorías, 2) Establecimiento de patrones de procesamiento de literales y asignación a propiedades y elementos de Wikidata, 3) Creación de declaraciones con cualificadores para cada categoría procesada y 4) Programación de bots para el procesamiento automático de categorías, enriquecimiento y validación de las descripciones de elementos de Wikidata. La propuesta recogida en este trabajo se centra en el uso de diferentes propiedades y entidades de Wikidata para desarrollar el punto 3. La automatización de un proceso para enriquecer y validar las declaraciones de cada elemento, permitiría aprovechar las dinámicas de edición existentes. Además ayudaría a elaborar un esquema de conceptos de más calidad, al especificarse el significado de las categorías que suponen una composición de varios términos y que en realidad resuelven necesidades descriptivas por otros medios.