CRITERIOS DE EVALUACIÓN. EFICACIA. CONCEPTO DE RELEVANCIA.

La evaluación de la Recuperación de la Información se ha hecho imprescindible desde el principio:
-Comparar sistemas
-Determinar cambios cuando se modifica un componente
-Nuevos componentes
Los resultados no han convencido a muchas personas, por lo que ha sido muy cuestionado. Criterios:
•Lancaster identifica tres criterios para evaluar un SRI:
-Calidad de resultados (eficacia:
Capacidad del sistema para recuperar documentos relevantes al mismo tiempo que rechaza los no relevantes (ruido)).
-Tiempo empleado (tiempo entre que el usuario hace la pregunta y el sistema le da la respuesta).
-Coste/Eficacia (desde el punto de vista empresarial; coste en términos tiempo de programación, esfuerzo y dinero que supone construir el sistema comparado con la eficacia que se obtiene).
•Salton, identifica dos criterios para evaluar un SRI:
-Eficacia (la calidad para recuperar documentación relevante y quitar el ruido)
-Eficiencia: coste/beneficio (desde el punto de vista del usuario, el esfuerzo intelectual y tiempo y encontrar lo que encuentra).

Eficacia:


“De un SRI depende de la capacidad para recuperar documentos deseados mientras se rechazan los no deseados” (Salton). Dos medidas:
-Exhaustividad (recae): proporción de material relevante recuperado realmente.
-Precisión (precisión): proporción de material recuperado realmente relevante.
Lo ideal es que un sistema sea exhaustivo y preciso, que sea muchos documentos y que sea sobre el tema que buscamos.
La Exhaustividad y Precisión evalúan el sistema fijándose en la relación entre lo que el usuario espera encontrar y lo que halla.
Problema principal de la exhaustividad, saber el número total de documentos relevantes de la base de datos (base de relevancia)
. La precisión siempre se puede calcular.
Es decir, son inversamente proporcionales.
Se puede considerar empíricamente probada esta relación inversa. En la práctica se llegará a una solución de compromiso del agrado del usuario. La Precisión y la Exhaustividad se miden entre 0 y 1.

Relación:


“Debe advertirse que los valores de exhaustividad y precisión que puede alcanzar un sistema dado son ajustables, en el sentido de que una relajación de las condiciones de búsqueda a menudo conducen a una alta exhaustividad mientras que el endurecimiento de los criterios de búsqueda lleva a una alta precisión” (Salton).

Gráficamente Precisión

Sale una curva decreciente porque son inversamente proporcionales, es decir, no siempre tienen que ser los mismos, pueden variar.
•No es una relación determinista,
•Depende:
-De la forma en que se lleve a cabo la indización y la recuperación
-De cómo se asignen los valores de relevancia (binaria y grados).

Gráficamente Exhustividad


En la gráfica aparecen dos curvas, la de abajo es el sistema menos cualificado y el de arriba más cualificado.
Cuanta más separación haya entre las dos curvas, significa que es mejor que el anterior.

Relevancia:


La exhaustividad y la precisión se basan en ella.
Es un concepto un poco subjetivo, aunque es el más objetivo para medir la eficacia de un sistema de recuperación de la información (SRI).
La mayor parte de los autores hacen distinción entre relevancia y pertinencia:

•Relevancia:


consiste en cuantificar los iguales que son dos documentos textuales, y se adecuan a la petición de ta información.

•Pertinencia:


es la adecuación a la necesidad de información, entra en juego los conocimientos que tiene un usuario y la pregunta si es útil para el usuario.
Un documento puede ser pertinente cuando es relevante, pero un documento relevante no tiene por qué ser pertinente.
En el caso de emplear una u otra de las medidas anteriores, los resultados pueden dar un vuelco. Un documento pertinente a una pregunta siempre es relevante (se parece a su contenido), pero no relevante, porque el usuario ya lo conozca.

Asignaciones de relevancia

•Binarias; documento relevante o no.
•Grados; relevante, poco relevante, muy relevante.
-Independiente de contexto, su asignación es nula.
-Teniendo en cuenta el contexto, la relevancia sería mayor, se le daría más peso.
Esto obliga a unas definiciones de precisión y exhaustividad generalizadas.

Varios juicios de relevancia

Aportada por Kantor:
-Asignación de relevancia por grados.
-Se puede utilizar varios juicios para cada documento: fracción.
-Tiende a ser menos subjetivo.
-Cálculos de P y E generalizados

Problemas: Base de Relevancia

La medida de precisión es factible de calcular. Sin embargo, la exhaustividad exige la contabilización de todos los documentos relevantes de la base.
Con el tamaño de las bases actuales ¿Cómo calcular la base de relevancia? ¿Cómo calcular el silencio?
El silencio es el número de documentos relevantes que no han sido recuperados en la búsqueda. No se puede recuperar porque hoy en día existen bases de datos grandes, cuando no puedes saber se hace aproximaciones estadísticas, que no son datos reales, pero son datos estimados.

Propuestas Bases de Datos pequeñas (Blair)


•Limitar la base.
•Identificación previa de varios documentos relevantes.
•Estimación estadística:
-Muestra elegida.
-Muestra aleatorias.

Para las grandes bases de datos

Kantor propone contabilizar solamente los r primeros documentos (si el SRI los ordena por relevancia).
g=documentos relevantes recuperados entre los r
G = base de exhaustividad, aproximación a ese nº total de documentos relevantes que no conocemos (r). Se hace usando aproximaciones estadísticas.
O bien, generar una base de exhaustividad (o base de relevancia estimada) para cada pregunta a partir de todos los sistemas a probar (Harman).

OTRAS MEDIDAS DE EVALUACIÓN COMPLEMENTARIAS

La precisión y la exhaustividad a veces se complementa con la medida del fracaso (FALLOUT): proporción de documentos no relevantes recuperados.
Hay medidas positivas y negativas, el fracaso es una medida negativa.
Otras medidas combinan la E y P en una única medida.
Si tengo dos sistemas que su suma de precisión y exhaustividad da lo mismo, ambos serian iguales según esa medida pero según lo que más destaques si la precisión o la exhaustividad según los valores que le des a (alfa). Esta medida combina la exhaustividad y la precisión pero normalmente se encuentra ponderada.

Otras medidas

La selectividad es la proporción de documentos no relevantes no recuperados, es una medida positiva.
Trabajo por hacer tph = 1 – P, esta es una medida negativa.
Existen otras medidas de eficacia menos utilizadas, por ejemplo: longitud esperada de la búsqueda (ESL).

Análisis de los datos obtenidos

-La exhaustividad está bien; ya que está por encima del 50%.
-La precisión es algo baja; ya que está por debajo del 50%
-La selectividad: el SRI es muy selectivo porque ha dejado casi todos los documentos no relevantes (el ruido) fuera de la búsqueda.
-El silencio es bajo, es decir, ha dejado pocos documentos relevantes sin mostrar. Cuanto más bajo sea es mejor.
-El fracaso es una medida negativa; cuanto más alto nos salga peor va. Por ello, podemos decir de que es muy bueno el fracaso obtenido.
-El trabajo por hacer, es malo porque queda más de la mitad del trabajo por hacer. También es una medida negativa.
Este ejercicio es más exhaustivo que preciso; ya que se han recuperado bastantes documentos relevantes pero ha entrado bastante ruido.