3.1. SISTEMAS BASADOS EN ÍNDICES INVERTIDOS
Se han ido formando con la automatización de la indización. Generalmente, se implementan 4 ficheros y en generación

1º Fase:


el sistema lee todos los documentos y almacena de forma temporal todas las palabras claves y su posición. Al mismo tiempo el documento se almacena en un fichero de texto asociado a un fichero indice de texto que guarda posición de comienzo de cada uno de los textos.

2º Fase:


el fichero temporal creado se ordena alfabéticamente, de tal forma que los términos repetidos aparecen juntos. Con esta información se actualiza el fichero diccionario (parte del fichero invertido) y que contiene todos los términos de indización de todos los documentos, junto con el número de documentos en los que aparece y el número total de apariciones.

3.2. LEYES DE ZIPF

Se estudia en la composición de los textos muestran los elementos del lenguaje ocurre desigualmente:
-Lenguaje de Europa Occidental: IS caracteres, 85-95% de la ocurrencia
-Inglés: 70 % (e, t, a, l, so, h, h, rd)
-Español: “E” la más frecuente
Las combinaciones de letras también aparecen de forma desigual: diagramas, trigramas, palabras,…
Si ponemos en orden la palabra más frecuente en inglés solo tenemos 50 palabras, que son un 50%.

Características de frecuencia:


Esta teoría era de interés en Teoría de la comunicación, Psicolingüística, RI.
George Zipf observó:
-Si tenemos muestras de texto y ordenamos las palabras de mayor a menor, se cumple;

Principio del “miniesfuerzo”
-También se puede formular de forma probabilística

Resumiendo


Las Leyes de Zipf se utilizan en RI en la indización automática, ya que pueden utilizarse para estimar el número de palabras de baja y alta frecuencia.
Para indizar utilizaremos las palabras de frecuencias intermedias, que son las que tienen mejor comportamiento como términos de indización.

Crecimiento del vocabulario:


Según Heaps (1978), el crecimiento del vocabulario (t:
número de palabras distintas) también está relacionado con la longitud del texto (N:
número total de palabras). Una típica relación viene dada por:

3.3. Valor de Información

Definido en la Teoría de la Comunicación (Shannon, 1928):
El valor de información de un mensaje H (p) es inversamente proporcional a la probabilidad con la que lo espera el receptor antes de que el mensaje llegue.
Dado el mensaje parcial “par”:
¯El valor de recibir una “a” es muy pequeño
¯El valor de recibir un “l” es ma yor
También se conoce con el nombre de entropía. Se mide en bits. Cuantifica la reducción de incertidumbre que se produce en el receptor cuando se recibe un mensaje.

Varios mensajes posibles:


¯ Si tenemos K mensajes posibles con probabilidades p1, p2,…, pk

Valor máximo:


El valor de información medio ponderado (o entropía media ponderada alcanza el máximo cuando todos los mensajes son igualmente probables.

Entropía de palabras completas:


Y lo mismo que pasa con las letras lo podemos extrapolar a sílabas y a las palabras completas. También se reduce la entropía si se conoce el contexto y se conocen (aunque sea de manera aproximada) las características de ocurrencias.
Las altas probabilidades de algunas palabras (y por consiguiente su baja entropía) reducen la entropía media.

Resumiendo:


cuanta más información tengamos el nivel de entropía o información disminuye.
TEMA 03: MODELOS DE RECUPEPERACIÓN DE INFORMACIÓN Y REPRESENTACIÓN DOCUMENTAL (II)
3.4. MODELOS DE RI
Modelo Booleano:

Basado en la Teoría de conjuntos y en la álgebra booleana. Los documentos y preguntas se representan mediante un conjunto de términos de indización. Las consultas se construyen formando expresiones booleanas con un subconjunto de términos mediante las operaciones ADN, OR y NOT.
Este modelo representa la ausencia o la presencia un término en el documento. Si está se pone 1, si no 0. Por eso, ante una pregunta se clasifican en relevante y no relevante mediante una recuperación de emparejamiento exacto.
Es un modelo extendido pero con limitaciones:
-No permite ponderar. 0 o 1
-Gran falta de flexibilidad. Conclusión un poco estricta y no se pueden obtener resultados por relevancia.
-No es de fácil manejo para usuarios que no están acostumbrados, por ello se le considera un modelo de….recuperación de datos, más que RI.

Espacio Vectorial:


Es el modelo más extendido, desarrollado por Salton en su Proyecto SMART.
La colección de documentos se presenta como una MATRIZ. Las filas son los documentos individuales y la columna las asignaciones de un determinado término de indización. En cada fila aparecerá una cantidad, pero distinta de ceros dependiendo de si está o no. La cantidad de “O” dependerá del grado en que el término describe al documento en cuestión.
En el modelo cada documento da lugar a un vector. Es una estructura con un número fijo de componentes, la posición es significativa. Eso da lugar a un conjunto de coordenada. Si un vector tiene “n” elementos tiene también dimensión “n”.

Ventajas

-La ponderación de términos mejora el comportamiento de la recuperación.
-Su estrategia de emparejamiento parcial es menos estricta que en el sistema booleano.
-No es necesario operador.

Modelo probabilístico:


El primer modelo probabilístico fue propuesto por Maron y Kuhns (1960), per el modelo probabilístico más utilizado es el de Robertson y Spark Jones (1976). Este modelo trata de estimar la probabilidad de que un documento sea relevante para un usuario.
En el modelo del espacio vectorial se recuperan aquellos documentos cuya representación es similar a la de una pregunta.
En el probabilístico se hace en función de la probabilidad de que sean relevantes. Para ello se basa en dos parámetros principales: la probabilidad de relevancia, y la probabilidad de no relevancia de un documento para una pregunta dada.
Cada documento también está representando por un vector, pero la asignación de los términos se hace según la probabilidad de que el documento sea relevante a dicho término.

Probabilidad de Relevancia:


Para calcular la probabilidad de relevancia de un documento respecto a una pregunta dada, se utiliza la Teoría de las probabilidades.

Se calcula a partir de:
La probabilidad de aparición de aparición en los documentos relevantes de los términos contenidos en cada documento.
Se recuperan aquellos documentos que tienen mayor probabilidad de relevancia que de no relevancia:
Ordena los documentos en orden descendentes, en orden de probabilidad de que sean relevantes a la pregunta.

PROBLEMA

En este modelo lo más difícil de determinar son las estimaciones de probabilidad. Estas probabilidades no se conocen a priori y se tienen que estimar ante muestras más o menos fiables.
Desde el punto de vista de la indización este es el principal problema de este modelo.

Modelo basado en lógica difusa:


Los modelos tradicionales funcionan basándose en lógica bivaluada (verdadero o falso).
En el mundo real no todo es absolutamente verdad o mentira, se da imprecisión.
Este modelo trabaja con lógica multivaluada en el intervalo [0,1]. Se basa en la teoría de los conjuntos difusos (Fuzzy). Surge como una forma de representar la imprecisión de los procesos de RI, puesto que permite la representación de clases cuyos límites o fronteras no están bien definidos.
La idea clave es asociar una función con los elementos de la clase que indicará el grado de pertenencia de ese elemento a esa clase, formándose los pares difusos. Esta función toma valores en el intervalo [0,1], con 0 correspondiendo a no pertenecerá dicha clase y 1 representando una pertenencia tota.
El planteamiento de la recuperación difusa es muy parecido al de los sistemas booleanos con los que ya estamos familiarizados.
La recuperación difusa es más flexible que la recuperación booleana en el sentido que se conocen los grados.

Otros modelos:


Existen otros modelos de RI basados en la Inteligencia Artificial (Bases de conocimientos, Redes Neuronales, Algoritmos Genéticos, procesamiento del lenguaje natural), pero que suelen ser extensivos de algunas de los modelos anteriores.

3.5. REPRESENTACIÓN DOCUMENTAL. MODELO DEL ESPACIO VECTORIAL

Un documento está constituido básicamente por dos componentes:
-Conceptos
-Estructura subyacente formada por relaciones existentes entre los conceptos (indispensable para la comprensión del documento).

Vectores Documentales:


Los documentos se componen de un conjunto de conceptos. Tradicionalmente, los conceptos han sido transformados en descriptores de un lenguaje controlado.
Podemos verlo como una tabla o matriz:
•Cada columna son asignaciones de un determinado descriptor
•Cada línea o fila representa a un documento
Puede utilizarse con:
• Descriptores, palabras claves utilizando un lenguaje controlado.
• Términos del lenguaje natural extraídos del propio documento.
En este modelo puesto que los documentos se representan como vectores, estos pueden situarse en un espacio vectorial de n dimensiones. Dentro de dicho espacio vectorial cada documento se sitúa en un lugar determinado por sus coordenadas.
En la fase de interrogación, cuando se formula una pregunta también se “deja caer” en este espacio vectorial, es decir, se representa utilizando las mismas coordenadas. De este modo, aquellos documentos que quedan más próximos a ella serán los más relevantes.

Consultas:


También se pueden representar las peticiones de Información (preguntas). Se le extrae la estructura subyacente. Vector en el espacio documental: Modelo del Espacio Vectorial.

Ponderación:


Se puede enriquecer con información numérica (pesos) utilizando algún esquema de ponderación.
Significado dependiente de modelo:
-Grado en el que el descriptor describe al documento
•Modelo del Espacio Vectorial
-Probabilidad de que sea relevante
•Modelo probabilístico

3.6. TÉCNICA DE RECUPERACIÓN. MEDIDA DE SIMILITUD


En el modelo del espacio vectorial, tanto la recuperación de documentos, como el cálculo de similitudes se realizan mediante un modelo matemático.
El método de recuperación de este modelo se basa en establecer una comparación entre la pregunta y los documentos en función de su grado de semejanza (similitud).

Función de similitud:


Se establece una función de similitud entre la pregunta y documentos de forma que pueda ordenar los documentos en función de la similitud de la pregunta.
La similitud entre dos objetos se calcula normalmente en función del número de propiedades asignada a ambos objetos.
En RI, las propiedades de los objetos son los términos de indización asignados a ellos.

Producto escalar:


Una función de similitud muy utilizada es el producto escalar.

Estudio de Noreault:


Hay un grupo de medidas de similitud entre las que no existen diferencias apreciables.
Función del coseno:
-Una de las más favorecidas
-Se puede expresar como el producto escalar de los vectores, normalizados (la normalización consiste en eliminar las diferencias de longitud).