Importância do controle de vocabulário em um repositório institucionalEstudo de caso

  1. Isidoro Gil-Leiva 1
  2. Isaque Katahira 2
  3. Mariângela Spotti Lopes Fujita 2
  1. 1 Universidad de Murcia
    info

    Universidad de Murcia

    Murcia, España

    ROR https://ror.org/03p3aeb86

  2. 2 Universidade Estadual Paulista
    info

    Universidade Estadual Paulista

    São Paulo, Brasil

    ROR https://ror.org/00987cb86

Liburua:
Organização do Conhecimento no Horizonte 2030: Desenvolvimento Sustentável e Saúde
  1. Silva, Carlos Guardado da (coord.)
  2. Revez, Jorge (coord.)
  3. Corujo, Luís (coord.)

Argitaletxea: Centro de Estudos Clássicos ; Universidade de Lisboa

ISBN: 978-989-566-137-4

Argitalpen urtea: 2021

Orrialdeak: 447-459

Biltzarra: Congreso ISKO España y Portugal (5. 2021. Lisboa)

Mota: Biltzar ekarpena

Laburpena

Os Repositórios Institucionais armazenam expressivas quantidades de recursos edocumentos digitais relacionados a produções acadêmicas e/ou científicas. Assim, abusca e o acesso temático por meio de assuntos ou palavras-chave desempenha um papelmuito importante para facilitar a busca e o acesso as informações armazenadas nosRepositórios Institucionais. Para que a recuperação de documentos ocorra de modoefetivo, faz-se necessário padronizar esse sistema de indexação, para minimizar osruídos intrínsecos da linguagem natural, como ambiguidades, sinonímias e inadequaçõesde registros e ampliar a convergência entre a linguagem natural dos usuários e os vocabulárioscontrolados disponibilizados no arquivamento e organização dos repositórios.Neste contexto, o estudo aqui apresentado têm como objetivos: analisar o RepositórioInstitucional da Unesp do ponto de vista da utilização de vocabulário em linguagemnatural e em linguagem controlada; analisar a lista de assuntos disponível no Repositório;e explorar possibilidades oferecidas pela análise de logs de buscas dos usuários paraatualização de vocabulários controlados. Metodologia: Para tanto, realizou-se umapesquisa bibliográfica no Banco de Dados Scopus sobre repositórios e o uso de logs paracriar e atualizar vocabulários controlados. Posteriormente, realizamos uma análise dalista alfabética em linguagem natural disponibilizada pelo Repositório da Unesp aos seususuários para auxiliar na buscar por informações. Por fim, foi realizada a coleta de logsde busca dos usuários do Repositório Institucional da Unesp. O conjunto de dados inicialutilizado na análise continha 480.742 registros de logs, armazenados no período de01/07/2019 a 31/12/2019. Resultados/ Conclusões: a análise realizada, revela que oRepositório Unesp adota a linguagem natural sem nenhum controle de vocabulário ouuso de instrumentos de padronização; nas listas de palavras-chave indexadas dos documentos,observamos que não há controle de vocabulário o que resulta em uma lista comvariações terminológicas que podem prejudicar a recuperação da informação. Dentre osproblemas estão variações de singular ou plural, digitação com maiúscula ou minúscula,uso de aspas e outros sinais como hífen. Através da análise realizada neste estudo,análise de logs, foi possível obter, uma lista de expressões de busca contendo palavrassimples, palavras compostas ou frases para possibilitar a criação ou atualização de umvocabulário controlado. A metodologia aqui apresentada mostrou-se eficaz pois, permitiuuma grande depuração de expressões de busca de usuários que produziu um corpusterminológico proveniente diretamente da linguagem utilizada nesse sistema. A lista depalavras-chave e a análise de logs podem oferecer possibilidades de criação e manutençãode ferramentas de controle de vocabulário, desde a lista alfabética de palavras-chavee até tesauros, mas precisam passar por rigoroso controle terminológico e linguísticopara o aproveitamento.