Indización: selección de términos y ponderación
-Elección de los términos
-Ponderación en cada documento
Objetivo: distinguir y localizar documentos.
Frecuencia:
La mayoría de las indizaciones automáticas comienzan con la observación de la frecuencia. Parece lógico que un término que tiene la misma frecuencia en todos los documentos de la base: NO PUEDE DIFERENCIAR.
Luhn:
“La representación del significado de un documento por parte de un término aumenta conforme lo hace la frecuencia con la que aparece el término en el documento”.
Zipf:
-Hay palabras muy frecuentes
-Suelen ser palabras funcionales
-Su longitud es pequeña siguiendo el “principio de mínimo esfuerzo”
-Tienen muy poca significación
-No pueden discriminar
Bajas frecuencias:
-Aparecen en muy pocos documentos
-Para esos documentos pueden representar su significado o no
-Si sumamos la frecuencia total para todos los documentos de la base es pequeña, luego no es significativa.
Luhn:
-La significación de cualquier texto está depositada en los términos de frecuencias intermedias.
-No establece los límites entre las frecuencias que son útiles y las que no
-Institución
Goffmann:
-Afirmaciones coincidentes
-Palabras de gran frecuencia: funcionales (artículos, conjunciones, etc)
-Palabras de pequeña frecuencia: raras (denotan riqueza del lenguaje)
-Palabras de frecuencia intermedia: mayor contenido semántico (buenos indizadores)
-Incluso llega a proponer la zona de transición entre las palabras de alta y baja frecuencia:
Utilización:
A veces se ha utilizado para determiner los términos de indización:
-Tomándolos en un intervalo en torno a ese valor de frecuencia n
-Añadiendo umbrales (p.e.: nº mínimo de documentos indizados por ese término)
De este modo nos aproximaremos a la cifra de términos que deseamos
Esquemas de ponderación:
En la indización se tiene que llevar a cabo dos procesos:
-Elección de los términos
-Ponderación en cada documento
Utilización de un esquema de ponderación (IDF, Señal, Valor de discriminación)
Inverse Document Frecuency (IDF):
Definida por Salton. Se basa en el concepto de Entropía media (Shannon). Indica la capacidad de discriminación (distinguir o diferenciar unos documentos de otros) de un término.
Las palabras vacías aparecen en todos los documentos (capacidad de discriminación nula); sin embargo, otras palabras aparecen solo en grupo de documentos de un tema específico (gran capacidad de discriminación).
Es una función decreciente respecto al número de documentos en los que aparece dicho término.
Utilización:
-En la selección de términos
-En la ponderación de los términos indicando con el peso la importancia de cada uno de ellos.
•Asigna mayor peso a los términos más específicos puesto que su frecuencia de aparición en la base documental es menor.
Ponderación de componentes:
Todo esquema de ponderación que sea bueno tiene dos partes: la local (solo analizamos el documento en cuestión) y la global (tiene en cuenta toda la colección).
Recordando los estudios de Luhn:
-Los términos más repetidos en un documento representan su significado: se puede hacer también los componentes proporcionales a la frecuencia (componente local)
Ruido:
Se define a partir del valor de la información
-Mide la previsibilidad de la distribución del término, su grado de dispersión
-Toma un valor mínimo (0) cuando un término solamente aparece en un documento
-Toma un valor máximo cuando aparece el mismo nº de veces en todos los documentos .
Señal:
-Existe una relación definida entre el ruido y la especificidad de un término.
-Se suele utilizar funciones inversas
-La señal mide el grado de concentración de un término (mayor concentración: mayor especificidad).
-Resultarán favorecidos, los término que tengan concentraciones altas en pocos documentos.
Ponderación de componentes:
También se utiliza para ponderar junto con la frecuencia como componente local:
•aij= peso asignado al término tj del documento Di
•tij= nº de veces que aparece el término tj en el documento Di
Media de similitud:
Si tenemos un espacio vectorial podemos expresar la similitud media como:
Refleja la densidad de espacio documental (espacio denso, raro).
Espacio denso: los documentos están muy próximos entre sí y la media sale muy elevada)
Densidad rara: los documentos están muy alejados entre sí, la media es baja por tanto los documentos no se parecen).
Capacidad de discriminación (diferenciar o distinguir):
La capacidad de discriminación de un término ha de notarse en esta media. Si tomamos palabras vacías como términos de indización tendremos una media alta.
Estos términos incrementar la densidad sin tener que hacerlo. Si tenemos un término de alta capacidad de discriminación y lo eliminamos (la similitud media debe aumentar) de la lista de términos de indización.
Valor de discriminación:
Esa diferencia tiene que aumentar a medida que aumenta el poder de discriminación del término. Salton define esa diferencia como valor de discriminación:
•msj= media de similitud sin tener en cuenta el término j
•ms= media de similitud teniendo en cuenta todos los términos
Utilización:
-Para la selección de los términos
-Para ponderar los términos junto con la frecuencia como componente local:
•aij= peso asignado al término tj del documento Di
•tij= nº de veces que aparece el término tj en el documento Di
Categorías respecto VD:
-Buenos discriminadores: vd>0. Frecuencias intermedias (no alterala densidad)
-Discriminadores indiferentes: vd:0. Bajas frecuencias (no altera la densidad)
-Discriminadores negativos: vd<0. Frecuencia muy alta (aumenta la densidad sin tener que hacerlo)
Problemas:
Antes tienen que estar definidas las similitudes
•Normalmente se tienen que definir las funciones de similitud, los vectores, la ponderación inicial, etc.
El cálculo es muy costoso:
•Tiene una complejidad 0 (n²)
Método aproximado:
Se calcula el centroide de toda la base (sus componentes son la media aritmética de los componentes de todos los documentos).
Con respecto a él se calculan todas las similitudes:
Proceso de indización simple:
-Extracción de palabras
Antes tenemos que considerar que van a ser los documentos:
•En algunos casos se han utilizado solamente los títulos
•Se ha apreciado una importante mejora si se incluyen los resúmenes
•Solamente hay una ligera mejora si se incluye todo el documento, sin embargo, conlleva mucho los costes de almacenamiento.
-Eliminación de palabras vacías
-Reducción a la raíz (Stemming)
-Selección de los mejores términos de indización
Se suelen utilizar el IDF, señal o valor de discriminación. El resto de los términos se puede eliminar. También se puede mejorar:
•Gran frecuencia: formación de frases
•Baja frecuencia: clases de un tesauro
-Asignación de pesos