Uso de Wikidata y Wikipedia para la generación asistida de un vocabulario estructurado multilingüe sobre la pandemia de Covid-19

  1. Tomás Saorín 1
  2. Juan-Antonio Pastor-Sánchez 1
  3. María-José Baños-Moreno 1
  1. 1 Universidad de Murcia
    info

    Universidad de Murcia

    Murcia, España

    ROR https://ror.org/03p3aeb86

Revista:
El profesional de la información

ISSN: 1386-6710 1699-2407

Año de publicación: 2020

Título del ejemplar: Pluralismo informativo

Volumen: 29

Número: 5

Tipo: Artículo

DOI: 10.3145/EPI.2020.SEP.09 DIALNET GOOGLE SCHOLAR lock_openAcceso abierto editor

Otras publicaciones en: El profesional de la información

Resumen

Se propone un método para la construcción ágil y dinámica de vocabularios controlados, especialmente para los medios de comunicación, utilizando Wikidata y Wikipedia como fuentes de información terminológica. El método se aplica a la construcción de un vocabulario sobre la pandemia de Covid-19. Para ello se propone la explotación de la estructura de items y propiedades de Wikidata y de los enlaces salientes y entradas de los artículos de Wikipedia. Mediante un proceso de definición de reglas de expansión de relaciones de Wikidata se ha diseñado un algoritmo en el que se parte de un conjunto de items iniciales y en sucesivas iteraciones y revisión de resultados se recopilan las declaraciones relevantes a la temática del vocabulario. El algoritmo se ha implementado en una aplicación cuyo código y resultados de recopilación del vocabulario sobre la pandemia de Covid-19 se ha publicado en un repositorio abierto. Esto permite utilizar el algoritmo tanto para verificar los resultados usando las mismas u otras reglas de expansión como para su aplicación a la recopilación de vocabularios de otras temáticas. En los resultados también se analizan los elementos recopilados en cada iteración, la propuesta de validación mediante los enlaces entrantes y salientes de los artículos, dejando como futuros trabajos la aplicación de SKOS para la representación interoperable de los vocabularios obtenidos mediante este método.

Referencias bibliográficas

  • Baeza-Yates, Ricardo; Ribeiro-Neto, Berthier (2011). Modern information retrieval: the concepts and technology behind search. Harlow, Essex: Addison-Wesley. ISBN: 978 0 321 41691 9
  • Balog, Krisztian (2018). Entity-oriented search. Cham, Switzerland: Springer Nature. ISBN: 978 3 319 93935 3 https://doi.org/10.1007/978-3-319-93935-3
  • Broughton, Vanda (2006). Essential thesaurus construction. London: Facet Publishing. ISBN: 978 1 856045650
  • El país (2017). “Así es el árbol del conocimiento de El país”. El país que hacemos, 24 enero. https://blogs.elpais.com/que-hacemos/2017/01/así-es-el-árbol-del-conocimiento-de-el-país-.html
  • Fensel, Dieter; Simsek, Umutcan; Angele, Kevin; Huaman, Elwin; Kärle, Elias; Panasiuk, Oleksandra; Toma, Ioan; Umbrich, Jürgen; Wahler, Alexander (2020). Knowledge graphs: methodology, tools and selected use cases. Cham, Switzerland: Springer. ISBN: 978 3 030374389 https://doi.org/10.1007/978-3-030-37439-6
  • Galloway, Scott (2017). Four: El ADN secreto de Amazon, Apple, Facebook y Google. Barcelona: Penguin Random House. ISBN: 978 84 16883271
  • García-Jiménez, Antonio; Rodríguez-Mateos, David; Catalina-García, Beatriz (2019). “Estudio sobre la indización/etiquetado y los lenguajes documentales en cinco diarios españoles”. Scire, v. 25, n. 1, pp. 55-64. https://www.ibersid.eu/ojs/index.php/scire/article/view/4579
  • Gartner, Richard (2016). Metadata: shaping knowledge from antiquity to the semantic web. Cham, Switzerland: Springer. ISBN: 978 3 319 40893 4 https://doi.org/10.1007/978-3-319-40893-4
  • GlobalWebIndex (2020). Coronavirus research. Series 4: Media consumption and sport. https://www.globalwebindex.com/hubfs/1.%20Coronavirus%20Research%20PDFs/GWI%20coronavirus%20findings%20April%202020%20-%20Media%20Consumption%20(Release%204).pdf
  • Glushko, Robert J. (2016). The discipline of organizing: professional edition. Sebastopol, CA, USA: O’Reilly Media. ISBN: 978 1 491970614
  • Hedden, Heather (2016). The accidental taxonomist. Medford, NJ, USA: Information Today. ISBN: 978 1 57387 528 8
  • Lambe, Peter (2007). Organising knowledge: taxonomies, knowledge and organizational effectiveness. Oxford: Chandos Publishing. ISBN: 1 84334 227 8
  • Lohmann, Steffen; Link, Vincent; Marbach, Eduard; Negru, Stefan (2015). “WebVOWL: web-based visualization of ontologies”. In: EKAW 2014. Knowledge engineering and knowledge management. satellite events, LNAI 8982, pp. 154-158. ISBN: 978 3 319 17966 7 https://doi.org/10.1007/978-3-319-17966-7_21
  • Minguillón, Julià; Lerga, Maura; Aibar, Eduard; Lladós-Masllorens, Josep; Meseguer-Artola, Antoni (2017). “Semi-automatic generation of a corpus of Wikipedia articles on science and technology”. El profesional de la información, v. 26, n. 5, pp. 995-1004. https://doi.org/10.3145/epi.2017.sep.20
  • Nouvel, Damien; Ehrmann, Maud; Rosset, Sophie (2016). Named entities for computational linguistics. Hoboken, NJ, USA: John Wiley & Sons. ISBN: 978 1 119268567 https://doi.org/10.1002/9781119268567
  • Pérez-Montoro, Mario; Codina, Lluís (2017). Navigation design and SEO for content intensive websites: a guide for an efficiente digital communication. Cambridge, MA, USA: Elsevier. ISBN: 978 0 08 100677 1
  • Piscopo, Alessandro; Simperl, Elena (2018). “Who models the world? Collaborative ontology creation and user roles in Wikidata”. In: ACM on Human computer interaction 2, CSCW, article n. 141. https://doi.org/10.1145/3274410
  • Rubio-Lacoba, María (2007). Documentación informativa en el periodismo digital. Madrid: Síntesis. ISBN: 978 84 97564595
  • Rubio-Lacoba, María (2012). “Nuevas destrezas documentales para periodistas: el vocabulario colaborativo del diario El país”. Trípodos, n. 31, pp. 65-78. http://www.tripodos.com/index.php/Facultat_Comunicacio_Blanquerna/article/view/38
  • Saorín, Tomás (2017). “Wikipedismo de actualidad. La enciclopedia escrita desde el periodismo”. Anuario ThinkEPI, v. 11, pp. 191-199. https://doi.org/10.3145/thinkepi.2017.35
  • Saorín, Tomás; Pastor-Sánchez, Juan-Antonio (2018). “Wikidata y DBpedia: viaje al centro de la web de datos”. Anuario ThinkEPI, v. 12, pp. 207-214. https://doi.org/10.3145/thinkepi.2018.31
  • Sinclair, Lucy (2020). Insights de búsquedas para ayudarte a entender las necesidades de los consumidores en momentos de incertidumbre (edición 20 abril 2020). https://www.thinkwithgoogle.com/intl/es-es/insights/insights-de-busquedas-para-ayudarte-a-entender-las-necesidades-de-los-consumidores-en-momentos-de-incertidumbre-edicion-del-20-de-abril-de-2020
  • Stuart, David (2016). Practical ontologies for information professionals. London: Facet Publishing. ISBN: 978 1 78330 152 2 https://doi.org/10.29085/9781783301522
  • Suárez-Figueroa, Mari-Carmen; Gómez-Pérez, Asunción; Motta, Enrico; Gangemi, Aldo (2012). Ontology engineering in a networked world. Berlin: Springer. ISBN: 978 3 642 43235 4 https://doi.org/10.1007/978-3-642-24794-1