La indización documental. La representación. Tipos y sistemas de indización.

1. Introducción

Hay tres tipos de indización, a cada uno le corresponden uno o varios sistemas de indización.

2. Indización por extracción

Consiste en tomar de los textos originales los términos con significación real, no gramatical e introducirlos en el sistema de búsqueda. El sistema de indización que corresponde a este tipo son las palabras-clave.

2.1 Sistemas de indización por extracción: las palabras-clave

2.1.1 Definición y características generales
Las palabras-clave son palabras significativas, o no vacías, extraídas del título, del resumen o del texto de los documentos, que se usan para representar su contenido sin ser sometidas a ningun tipo de control terminológico.
Son palabras no vacías: los nombres, los adjetivos y los adverbios
Son palabras vacías: los artículos, las conjunciones, los pronombres, las preposiciones, y algunos verbos o adverbios.
En la práctica se produce en la primera fase de la indización, al mismo tiempo que la selección de los términos. En lo teórico, deben distinguirse las dos fases, y dentro de la segunda fase la indización con palabras clave se produce en una sola etapa: la extracción.
2.1.2 Método de indización con palabras-clave
Generalmente se hace de forma automática. El método seguido por los programas de extracción de palabras-clave es el siguiente:
1.- Se almacena a priori en el sistema una lista de palabras vacías, o antidiccionario, con las palabras vacías que previsiblemente pueden encontrarse. Se almacenan también los posibles caracteres que sirvan de separación.
2.- Los documentos almacenados se comparan automáticamente con la lista de palabras vacías
3.- Reconocimiento selección de las palabras no vacías.
4.- Las palabras seleccionadas son añadidas a la lista de palabras-clave ya existente:
4.1 Si la palabra ya estaba incluida sólo se añade su frecuencia de aparición
4.2 Si la palabra no existía, se añade la nueva palabra y la frecuencia de aparición
5.- El resultado de este proceso es una base de datos en la que se almacenan todas las variantes de una palabra con una raíz común:
5.1 variantes de género, número, declinación y sufijos gramaticales
5.2 las variantes de una misma categoría gramatical
5.3 y las variantes de categorías diferentes
Esta ventaja sólo se aprovechará si el sistema de recuperación permite hacer búsquedas truncadas.
2.1.3 Ventajas
Este sistema presenta cuatro ventajas:
1.- El sistema de indización es rápido y económico.
No tiene casi ningún coste y es muy rápido, basta con registrar al principio una lista de palabras vacías y editar cada cierto tiempo una lista de palabras-clave extraídas por el sistema a partir de los textos registrados.
El coste de indización es pequeño: el que se deriva del proceso de extracción de palabras-clave que realiza el ordenador.
2.- Al almacenar los términos tal cual aparecen en el documento, se representa exactamente el contenido del término.
Es un sistema de indización altamente específico, ya que cualquier término con un grado alto de especificidad contenido en un documento puede ser almacenado para la búsqueda.
La especificidad de las palabras-clave sólo será útil en la búsqueda si las palabras se pueden prever, esto ocurre con los nombres propios o identificadores o términos especializados. Ya que se trata de expresiones unívocas, que serán usadas en las búsquedas con la misma forma. En contra planteará problemas con los cuasi-términos y con aquellas expresiones que planteen problemas de polisemia, sinonimia y homonimia.
3.- Es un lenguaje exhaustivo por recoger todos los posibles términos significativos de indización.
4.- como los términos almacenados son, términos muy específicos y recientes, se puede seguir la evolución terminológica de un campo determinado.
2.1.4 Inconvenientes
Plantea problemas en el almacenamiento y en la recuperación:
2.1.4.1 Problemas de almacenamiento
1.- Únicamente se seleccionarán palabras individuales y no expresiones, ya que en el antidiccionario se incluyen palabras de significación gramatical que no serán seleccionados nunca.
Este problema puede solucionarse, en centros especializados, incluyendo un “diccionario”, o “lista de inclusión” de giros especializados y términos y cuasi-términos compuestos de varias palabras. Con esta lista el sistema seleccionará también expresiones.
2.- no se almacenan conceptos que no aparecen mencionados explícitamente. De modo que las expresiones no léxicas no son traducidas por términos equivalentes.
3.- En el lenguaje natural, no controlado, hay un número importante de expresiones imprevisibles, por su variedad, que es preciso controlar para evitar que los ficheros de búsqueda sean inconsistentes. La indización con palabras-clave carece de esta funcionalidad.
4.- Los homógrafos de palabras vacías no se almacenarán.
5.- No se almacenarán las siglas en las que cada letra esté seguida de un punto
6.- No se almacenará toda la información que se exprese mediante imágenes
7.- almacena también las variantes ortográficas y tipográficas
2.1.4.2 Problemas en la recuperación
1. – No se controlan las variaciones gramaticales. El programa de recuperación permite hacer búsquedas truncadas, o el usuario deberá buscar término por término.
2.- No se controlan los términos sinónimos, polisémicos y homónimos, ya que no existe ningun sistema de reenvío. Esto provoca ruido y silencia en la recuperación. La principal característica de este sistema es la ambigüedad semántica.
3.- Se pueden producir problemas de cambios de sentido en las búsquedas. Dado que el número de palabras seleccionadas por documento es muy alto, la cantidad de combinaciones que puede producirse entre los términos provoca cambios de significado.
2.1.5 Aplicación: los índices permutados de títulos (índices KWIC, KWOC, KWAC Y KWOT)
No son índices exclusivos de los títulos. Son una forma de presentación de términos de indización que se puede aplicar indistintamente:
– sobre cualquier tipo de texto (títulos, resúmenes, el texto completo del documento aunque sólo son funcionales con textos cortos)
– sobre cualquier forma de índices (hay índices permutados de descriptores libres, de descriptores en tesauros, y se pueden aplicar sobre materias)
Este sistema sólo es operativo con descriptores, títulos y resúmenes, que son textos muy cortos y tienen una información concreta.
Este sistema sólo es práctico si se aplica sobre colecciones restringidas de documentos, con títulos explícitos que sean altamente significativos y representativos del documento
El resultado de esta aplicación son los índices permutados de títulos.
2.1.5.1 Principios de los índices permutados de títulos
Basada en tres principios:
1.- Los títulos deben ser informativos del contenido
2.- algunas de las palabras extraídas del título sirvan, efectivamente, de guía al investigador hacia el documento que contiene la información deseada
3.- Aunque el significado de una palabra aislada puede llegar a ser ambiguo o general, el contexto sirve de ayuda para definir y explicar su sentido
2.1.5.2 Composición de los índices permutados. Elementos
Constan de tres partes:
1.- la palabra clave
Son las unidades que se utilizan como elemento de ordenación alfabética.
En los índices permutados de títulos, las palabras-clave son ordenadas en una secuencia alfabética que permite que cada palabra del título aparezca una vez en el índice, acompañada del título completo, o de parte del título.
De este modo aparece la palabra en el contexto del título. Es decir, la palabra clave es el elemento de acceso al título y se toma como referencia para la ordenación alfabética T
La primera tarea a la hora de hacer un índice permutado es identificar las palabras-clave. Se hace automáticamente con el empleo de un antidiccionario o diccionario de palabras vacías.
En los índices permutados las palabras-clave son destacadas de alguna manera:
– en los KWIC se imprimen en el centro de la página formando una columna
– en los KWOC y KWAC se sitúan a la izquierda de forma destacada
2.- el contexto
Lo componen las otras palabras del título. Su función es modificar, el significado de las palabras clave. El resto de las palabras del título, que acompañan a la palabra-clave, se sitúan junto a ésta:
– el espacio sobrante a ambos lados de la columna en el caso de los kwic
– bajo la palabra-clave, en el caso de los kwoc, kwac
El contexto permite al investigador identificar el tema.
3.- el código o referencia
La forma del código varía desde un número de acceso al documento, hasta códigos más complejos, por ejemplo el código Luhn, formado por:
– 4 letras del apellido
– 2 letras de los nombres
– 2 últimos dígitos del año de publicación
– las iniciales de las 3 primeras palabras del título.
2.1.5.3 Características y formas de presentación 
La diferencia entre los KWIC y KWOC es formal: se distinguen por el emplazamiento de la secuencia alfabética de las palabras permutadas.
Sus características son las siguientes:
1.- En los índices KWIC, (palabra clave en contexto), las palabras permutadas aparecen colocadas en el centro de las páginas del índice en el lugar que ocupan dentro del título. La palabra y el título se encuentran en una sóla línea. Cuando el título entero no cabe en una línea es cortado.
Cada línea en un índice KWIC está formada por tres partes:
– la palabra clave, encabezamiento que se ordena alfabéticamente
– el contexto, funciona como un modificador de la palabra
– el código, (signatura o referencia de localización)
2.- En los índices KWOC, (palabra clave fuera de contexto), las palabras se separan del título, y aparecen destacadas, generalmente situadas a la izquierda. La principal ventaja, en estos puede mantenerse el título completo, ya que no interfiere para la lectura del índice.
Cada entrada de un índice KWOC está formada por:
– la palabra-clave
– el contexto
– la referencia
3.- Algunos autores) distinguen entre índices KWOC e índices KWAC (palabra clave y contexto), son una variante formal de aquéllos.
– En los KWOC aparece una secuencia de puntos suspensivos o de otros signos ortográficos en el lugar que ocupa dentro del título la palabra seleccionada para indizar.
– En los KWAC la palabra-clave aparece destacada e incluida en el título.
Algunos autores consideran que este tipo de índice son índices del tipo KWOC. Tienen los mismos elementos:
-Palabra clave
– Contexto
-Referencia
4.- La variante manual de los índices permutados KWIC es conocida como KWOT (palabra clave del título). Las palabras-clave que deben ser seleccionadas en cada título son destacadas mediante subrayado.
Se puede hacer directamente sobre una copia de las fichas catalográficas y después éstas son ordenadas alfabéticamente siguiendo la secuencia de las palabras-clave.