Identificación y análisis del vocabulario especializado de los repertorios de jurisprudencia británicos: estudio basado en un corpus de este género legal, fundamento de los sistemas legales common law

Marín Pérez, Mª José

Identificación y análisis del vocabulario especializado de los repertorios de jurisprudencia británicosestudio basado en un corpus de este género legal, fundamento de los sistemas legales common law

Marín Pérez, Mª José

Supervised by:

Aquilino Sánchez Pérez Director

Defence university: Universidad de Murcia

Fecha de defensa: 25 November 2013

Committee:

Pascual Cantos Gómez Chair
Moisés Almela Sánchez Secretary
Guadalupe Aguado de Cea Committee member
Chelo Vargas Sierra Committee member
Juan Santana Lario Committee member

Type: Thesis

Teseo: 116362 DIALNET DIGITUM editor

Abstract

El objetivo fundamental de esta tesis doctoral es la identificación y análisis del vocabulario especializado de BLaRC (the British Law Report Corpus), un corpus de 8,85 millones de palabras de inglés jurídico compuesto por sentencias judiciales, que se describe y justifica en el capítulo 2. Con el fin de identificar y analizar el vocabulario especializado del corpus, diez métodos de extracción automática de términos (métodos ATR) se implementan y evalúan en un corpus de 2,6 millones de palabras, UKSCC (the United Kingdom Supreme Court Corpus), extraído del corpus de referencia para facilitar la implementación de estos métodos y su validación dado el tamaño de éste último. El capítulo 3 se dedica a la evaluación de estos métodos ATR en lo que respecta a los niveles de precisión alcanzados por cada uno de ellos en la identificación de terminología jurídica. La precisión media alcanzada se calcula a través de la comparación automática de la lista de candidatos a término obtenida tras la implementación de cada uno de estos métodos con un glosario jurídico especializado de 10.088 entradas, que también se ha compilado para esta tesis. Asimismo, se calcula la precisión cumulativa siguiendo el mismo proceso para observar y compara la manera en que evoluciona el número de términos reales identificados conforme la lista de candidatos aumenta. Como resultado de esta evaluación, dos métodos son seleccionados por su mayor eficiencia, son Terminus (Nazar y Cabré, 2012) y TermoStat (Drouin, 2003). Tras esta selección, se procede a su implementación en el corpus de referencia, BLaRC, con resultados similares. En el apartado 3.2.4. se ofrecen los listados de términos mono-léxicos y poli-léxicos identificados por ambos métodos una vez validados dichos listados. El capítulo 3 concluye con la propuesta de varias actividades cuyo fin es el de ilustrar las diversas aplicaciones y usos de los corpus especializados en la enseñanza del inglés con fines específicos. Debido a la relevancia del vocabulario sub-técnico dentro de la terminología legal, en el capítulo 4 se propone un método cuantitativo para medir su grado de especialización basándonos en el contexto de uso de este tipo de palabras. El modelo de las redes léxicas de Williams (2001) se aplica a un grupo de palabras generales, sub-técnicas y altamente especializadas para observar y comparar el número y la frecuencia de sus colocados y co-colocados tanto en BLaRC, el corpus jurídico, como en LACELL, el general. La observación de los datos obtenidos nos lleva a la formulación del algoritmo Sub-Tech que nos permite situar este tipo de palabras a lo largo de un continuum de especialización en función de los datos obtenidos tras la aplicación del modelo de Williams. Finalmente, con el fin de describir el vocabulario sub-técnico desde una perspectiva semántica, el modelo de las constelaciones léxicas de Cantos y Sánchez (2001) se aplica al análisis de los rasgos semánticos de los términos compartidos trial, charge y battery obteniendo una imagen mucho más clara del proceso que siguen este tipo de palabras del uso general al especializado. La aplicación de este modelo junto con el método cuantitativo descrito más arriba podría considerarse como un primer paso hacia la descripción de un fenómeno léxico que, hasta la fecha, no ha sido examinado con suficiente profundidad. This doctoral thesis aims at identifying and analysing the specialised vocabulary in BLaRC (the British Law Report Corpus), an ad hoc legal corpus of British Law Reports of 8.85 million words, which is described and justified in detail in chapter 2. In order to do so, ten different ATR methods are implemented on a 2.6 million word corpus, UKSCC (the United Kingdom Supreme Court Corpus), extracted from the main one to facilitate their implementation and validation process. Chapter 3 is devoted to the evaluation of such ATR methods as regards the precision levels achieved in term identification by each of them. Average precision is calculated through the automatic comparison of the lists of candidate terms (CTs) produced by each method with a gold standard, that is, an electronic legal glossary of 10,088 entries, also compiled for this research. Cumulative precision is measured following the same procedure so as to observe and compare the way it evolves as the number of identified terms augments. As a result, Terminus 2.0 (Nazar & Cabré, 2012) and TermoStat (2003), the best performing techniques, are selected with the aim of implementing them on BLaRC. After doing so, the validated lists of both single and multi-word legal terms extracted from it are offered in section 3.2.4. Chapter 3 ends with the proposal of some activities aimed at illustrating the varied applications and uses of specialised corpora and vocabulary lists in ESP teaching. Owing to the relevance of sub-technical vocabulary as a major component of the legal lexicon, a quantitative method is proposed in chapter 4 to measure its degree of specialisation based on the context of usage of this type of words. William's (2001) lexical network model is applied to a set of general, highly specialised and sub-technical words in order to observe and compare the number and frequency of their collocates and co-collocates both in BLaRC, the specialised corpus, and LACELL, the general one. The observation of the data obtained leads to the formulation of the algorithm Sub-Tech allowing to place the words analysed along a continuum of specialisation depending on the data obtained after the implementation of Williams' model. Finally, with the purpose of describing sub-technical vocabulary from a semantic perspective, Cantos and Sánchez's (2001) lexical constellation model is applied to analyse the semantic features of the shared terms trial, charge and battery resulting into a much clearer picture of the process undergone by sub-technical words from general usage to specialisation. The application of this model in combination with the quantitative method described above may be regarded as a first step towards a better understanding of a lexical phenomenon which, to the best of our knowledge, has not been explored in depth to date.