Un tesauro es un vocabulario controlado y dinámico, compuesto por términos que tienen entre ellos relaciones semánticas y genéricas y que se aplica a un dominio particular del conocimiento (Norma ISO 2788) |
Vocabulario de un lenguaje controlado de indización, organizado formalmente, de manera que las relaciones entre los conceptos se establezcan a priori, para ser usadas en sistemas de recuperación de información (Alan Gilchrist y Jean Aitchison) |
Etimológicamente la palabra Tesauro viene del latín y su significación era tesoro.
Se pueden definir según su función y según su estructura :
- Por su función, se puede definir como un instrumento de control terminológico utilizado para trasponer a un lenguaje más estricto el idioma natural empleado en los documentos y por los indizadores.
- Por su estructura, es un vocabulario controlado y dinámico de términos que tienen entre ellos relaciones semánticas y genéricas y que se aplica a un dominio particular del conocimiento.
Los elementos de un tesauro serían los siguientes:
- Unidades lexicales:
Estas pueden comportar las siguientes categorías: grupos de descriptores, que agrupan los términos de indización bien por campos (temas) o por clases de términos o "facetas"
- Descriptores:
Son palabras o expresiones del lenguaje corriente retenidas por el constructor del tesauro para designar los conceptos representativos del documento y las preguntas utilizadas por el indizador.
- No descriptores:
Son sinónimos o cuasi-sinónimos de los descriptores o términos que designan en el lenguaje de uso conceptos afines a los que cubren los descriptores. Los no descriptores no pueden ser utilizados para la indización del documento o de las preguntas, pero cada uno de ellos reenvía a uno o dos descriptores para representar los conceptos correspondientes.
Entre los tipos de tesauros están:
- Tesauro facetado: este es un sistema de lenguaje controlado, combina una clasificación facetada (sistemática) con un tesauro alfabético que reemplaza al índice de la clasificación.
- Tesauro monolingüe: es el que contiene términos o descriptores en una lengua.
- Tesauro multilingüe: es el que contiene términos o descriptores en más de una lengua.
- Macrotesauro: es un tesauro que incluye algunos descriptores básicos comunes de un macrotesauro y los propios de su campo o especialidad.
Además, en cuanto a la estructura de los tesauros, puede darse origen a tres tipos de tesauros:
- El tesauro lineal, presenta una serie de palabras sin conexiones, por lo que puede decirse que es un vocabulario simple.
- El tesauro arborescente, está construido en forma ramificada, así cada descriptor tendrá un descriptor genérico y varios descriptores con los que se relacionará ascendente o descendentemente.
- El tesauro reticular es aquel construido de tal forma que los descriptores se hayan entrecruzados, en forma de red. Así, cada descriptor podrá tener varios descriptores genéricos y varios descriptores específicos y la información que genere será más completa.
Las relaciones que se pueden dar entre los términos de un tesauro son:
Es la relación entre descriptores o términos preferidos y los no descriptores o términos no usados en la indización referentes a un mismo concepto.
USE
UP
Esta relación cubre dos tipos de términos los sinónimos y los cuasi-sinónimos. Los sinónimos son términos cuyo significado puede considerarse igual, por lo que son intercambiables, y tienen diferente origen lingüístico.
Se suelen considerar términos preferidos aquellos que más corrientemente son utilizados por los usuarios.
Los Cuasi-sinónimos son términos cuyo significado es considerado diferente en el uso común, pero son tratados como sinónimos en la indización. por ejemplo puntos de un continuo "Humedad y Sequedad", o simplemente el término más genérico.
"Ascensión vertical"
Up. Ascensor
Up. Montacargas
Es la relación vertical entre todos los descriptores de una misma clase, expresada en términos de subordinación de los conceptos en un doble sentido:
- Genero/especie
- Todo/parte
Basado en grados de superioridad y de subordinación; donde el término superior representa una clase o un todo y los subordinados se refieren a las partes o especies de estos.
La reciprocidad se expresa mediante la notación:
TG (Término genérico) = BT (Broad term)
TE (Término específico) = NT (Narrow Term)
Si un descriptor tiene un solo descriptor por encima de él, este es monojerárquico, si tiene dos o varios es polijerárquico. Como regla general puede apuntarse que cada término subordinado debe de referirse al mismo tipo de concepto que el término superior, que puede ser un objeto del mismo, una acción, una propiedad
- Relación genero/especie: Se aplica a acciones, propiedades y agentes.
- Relación jerárquica todo/parte: En la asociación de ideas el nombre de una parte implica y evoca la del todo poseedor. De modo que en esta relación la parte del todo funciona como término superior, mientras que la parte lo hace como término subordinado. Se aplica a objetos, a lugares geográficos, estructuras sociales, disciplinas y sus partes de estudio
- Relaciones de ejemplo: Es la conexión entre una categoría general de objetos expresada por un sustantivo común y un ejemplo individual, que suele ser un nombre propio que sirve para representar a otros nombres propios, que no se incluyen en el tesauro para no sobrecargar las categorías.
- Relaciones polijerárquicas: Un concepto sobre bases lógicas puede pertenecer a más de una categoría, por lo tanto posee relaciones polijerárquicas.
Como conclusión podemos decir que las relaciones jerárquicas se utilizan durante la búsqueda para enriquecer la formulación de la pregunta, añadiendo a la búsqueda uno o más descriptores superiores o inferiores para concretar la búsqueda.
Indican relación o uniones en la significación de los descriptores. Son relaciones simétricas entre dos descriptores, que son susceptibles de evocarse mutuamente por asociación de ideas. Y simétrica pues si A se asocia a B, B se relaciona con A.
La notación utilizada es:
TR (Término relacionado) = RT (Related term)
Pueden reunir términos de la misma categoría o de categorías diferentes, los referentes a las mismas son términos con significados superpuestos, tales como "barcos" y "buques", donde cada uno de los términos puede ser objeto de una definición exacta. Sin embargo a veces se les utiliza separadamente y de forma indistinta.
También pueden asociarse términos que tengan una relación de familia o derivativa
En lo referido a la presentación del tesauro, podemos encontrar las siguientes:
- Presentación alfabética: Los descriptores y no descriptores se encuentran agrupados en una sola secuencia alfabética, acompañados de sus relaciones, no es la forma más habitual de encontrarlos.
- Presentación sistemática: Consta de dos partes, una de ellas son las categorías o jerarquías y por otra un índice alfabético, que dirige a los usuarios a la sección semántica a la que el concepto pertenece. Considerándose esta última sección la parte principal del tesauro y el índice como auxiliar.
- Presentación gráfica: Dispuestos como una figura que permite al usuario asociar los términos que se encuentran relacionados. Con dos tipos de presentación:
- Árboles
- Flechados
También debe de constar de un índice alfabético, pues es difícil representar los no descriptores, notas de alcance. Dándose el caso de que la sección auxiliar del índice contiene más información que la parte en teoría principal, siendo esta gráfica de apoyo.
Inicio Introducción a las ontologías Guía ontologías Guía tesauros