Carlos M. Lorenzetti


Introducción

La Recuperación de Información (IR) web es un área de investigación relativamente nueva, que se popularizó desde la aparición de la Internet a principios de los '90s y trata de afrontar los desafíos de la IR en la Internet. La investigación de la IR con la ayuda de computadoras data de los '50s, cuando el esfuerzo estaba enfocado en la resolución de problemas de IR en colecciones de documentos pequeñas, con consultas descriptivas, en un dominio acotado y con usuarios particulares. Las características del nuevo entorno que resultó la World Wide Web (Web), hicieron que la tarea fuera algo diferente de la IR tradicional. La Web es un recurso prácticamente ilimitado, con información heterogénea, y con usuarios de todas las clases sociales, buscando información que satisfaga sus necesidades. Estos necesitan que la Web sea accesible a través de sistemas de recuperación de información efectivos y eficientes. El tamaño, la heterogeneidad, el dinamismo y la estructura de la Web, junto con la diversidad en los comportamientos de búsqueda de los usuarios, son las principales características que hacen que la IR tradicional tenga grandes desafíos en la Internet.

Los motores de búsqueda comerciales, que son los sistemas de IR más populares, han resuelto parcialmente los desafíos con los que se enfrenta la IR en la Web, ofreciendo una herramienta para la búsqueda de información relevante. En efecto, los usuarios actuales esperan ser capaces de encontrar la información que buscan en la Web, de forma rápida y fácil. La IR en la Web, sin embargo, continúa siendo un área con muchas cuestiones por resolver, probablemente con muchas aplicaciones por descubrir. En la actualidad sigue existiendo la necesidad de desarrollar métodos novedosos para facilitar el acceso eficiente a la información relevante en la Web. Algunos problemas de investigación van desde comprender mejor las necesidades del usuario, al procesamiento de enormes cantidades de información para brindar mejores métodos de ordenamiento, que hagan uso de la estructura y las características de la Web.


Motivación

La omnipresencia de las computadoras personales, unida a la conectividad de la Internet han cambiado para siempre el rol de la información en la computación. Los recursos de información ya no están más relacionados con una única ubicación ni son accedidos sólo por profesionales. Los sistemas de IR están disponibles para los usuarios de Internet cada día, desde el confort de su propia computadora personal. Estos repositorios de información se acceden de la misma forma en la que se escriben artículos, se leen diarios y se navegan sitios de la Web. Desafortunadamente, los sistemas de IR tradicionales resultaron difíciles de usar para usuarios nuevos, lo que impulsó el desarrollo de una gran cantidad de sistemas para buscar, filtrar y organizar la gran cantidad de información que se tenía disponible. Se desarrollaron sistemas de IR para aplicaciones que van desde la clasificación y organización de correo electrónico [Mae94,Coh96], el filtrado de noticias [Lan95], sistemas para responder consultas basados en las FAQ de Usenet [HBS94], y la búsqueda en la Web [McB94,BP98]. También se han desarrollado algunas aplicaciones para organizar la información del usuario, como pueden ser archivos de notas, diarios y calendarios [Jon86,LF94].

Sin embargo, la mayoría de estos sistemas, que se han convertido en la piedra angular del acceso a la información, sólo se han concentrado en la generación de consultas para recuperar información por demanda, lo que significa que el usuario tiene que invocarlos explícitamente, interrumpiendo el proceso normal de navegación y esperando ocioso por los resultados de la búsqueda. Tales sistemas no pueden ayudar a un usuario cuando éste no está suficientemente familiarizado con el tema en cuestión, o desconoce el vocabulario exacto con el que debe formular las consultas para acceder a los recursos de interés.

Este escenario trae nuevos desafíos y oportunidades a los diseñadores de tales sistemas, tanto para crear sistemas accesibles como para aprovechar por completo este nuevo espacio de información oculta. El crecimiento explosivo que ha tenido la Web y otras fuentes de información on-line han hecho crítica la necesidad de alguna clase de asistencia inteligente para el usuario que está buscando información relevante.
Al desarrollarse computadoras de escritorio cada vez más potentes, la mayor parte del tiempo de CPU de éstas se desperdicia esperando que el usuario presione la siguiente tecla, lea la siguiente página o se cargue el siguiente paquete de la red. No hay razón para que esos ciclos de CPU desperdiciados no puedan ser usados constructivamente para realizar búsquedas de información útil para el contexto actual del usuario. Por ejemplo, mientras un ingeniero lee un correo electrónico sobre un proyecto, un agente puede recordarle la planificación, los reportes de avance u otros recursos relacionados con ese proyecto. Cuando el ingeniero no lee más el correo y, por ejemplo, comienza a editar un archivo, el agente cambiaría automáticamente sus recomendaciones para adecuarse a la nueva tarea.

Para los diseñadores de interfaces de exploración de información también se presentan problemas interesantes, ya que la forma en la que un usuario genera una consulta depende de su conocimiento previo y de su entendimiento del tema. Algunas preguntas que surgen son: ¿cómo les presentamos a los usuarios las posibles acciones que pueden tomar teniendo en cuenta su entendimiento actual?, ¿cómo podemos ayudar a los usuarios a tener un mejor entendimiento de estas referencias?, y ¿cómo podemos ayudar a los usuarios a volver a sitios visitados con anterioridad en la exploración, una vez que se ganó una nueva perspectiva?

La motivación para las investigaciones presentadas en esta tesis es desarrollar una herramienta que ayude y asista al usuario de un sistema de IR en la tarea que está realizando, brindándole información relevante y basada en el contexto en el cual está trabajando. A continuación se presentan los objetivos específicos de la tesis.


Objetivos

Esta tesis tiene como principal objetivo proponer, investigar y evaluar nuevas técnicas semisupervisadas de IR orientadas a entender mejor las necesidades de los usuarios. Para abordar este objetivo, se plantearon las siguientes preguntas de investigación:

  1. ¿Puede el contexto del usuario explotarse satisfactoriamente para acceder a material relevante en la Web?
  2. ¿Puede un conjunto de términos específicos de un contexto ser refinado incrementalmente basándose en el análisis de los resultados de una búsqueda?
  3. ¿Los términos específicos de un contexto aprendidos mediante métodos incrementales, son mejores para generar consultas comparados con aquellos encontrados por técnicas clásicas de IR o métodos clásicos de reformulación de consultas?

Por lo tanto, los objetivos específicos de esta tesis son:

  1. Proponer un algoritmo semisupervisado capaz de aprender incrementalmente nuevos vocabularios con el propósito de mejorar consultas temáticas. El objetivo es que estas consultas reflejen la información contextual y así puedan recuperar efectivamente material relacionado semánticamente.
  2. Desarrollar una plataforma para evaluar las técnicas de IR propuestas, así como otras técnicas existentes. Dicha plataforma será especialmente apta para el análisis de buscadores temáticos y para incorporar métricas de evaluación novedosas basadas en las nociones de similitud semántica y relevancia parcial.


Contribuciones

Esta investigación propone una técnica de IR novedosa que incrementalmente aprende nuevos términos que pueden ayudar a reducir la distancia que existe entre el vocabulario empleado en las consultas formuladas por un usuario y el vocabulario utilizado para indexar los documentos relevantes para dicho usuario. Es decir, las principales contribuciones de esta tesis son:

  1. Un Algoritmo semisupervisado que utiliza una estrategia de recuperación incremental de documentos web para el ajuste de la importancia de los términos utilizados en la generación de consultas, de forma tal que éstos reflejen mejor su valor como descriptores y discriminadores del tópico del contexto del usuario. El vocabulario enriquecido de esta forma permite la generación de consultas para una búsqueda más efectiva.
  2. Una Plataforma de evaluación de nuevos métodos y algoritmos desarrollados para la IR. Una plataforma de evaluación es algo fundamental en el desarrollo de nuevos métodos en IR, permitiendo la comparación con las técnicas existentes. También se proponen nuevos métodos de evaluación sustentados en una métrica de similitud semántica para la comparación de documentos.


Organización de la tesis

Esta tesis está organizada en 6 capítulos principales, seguidos de las Referencias.

El Capítulo 2 describe los fundamentos de los sistemas de IR. Entre ellos, los modelos clásicos de representación de documentos más utilizados en el área, seguido de una explicación del proceso de formulación de una consulta, la etapa inicial de todo proceso de recuperación, en donde se incluye un análisis de los mecanismos de reformulación y optimización de consultas. Luego se analiza el concepto fundamental de la similitud, mostrando las métricas más difundidas. Finalmente se examina el potencial que tienen las ontologías en el proceso de evaluación de un sistema de IR y se define la noción de similitud semántica.

El Capítulo 3 presenta la metodología de evaluación de los sistemas de IR, a la cual se la puede dividir en tres grandes componentes. Primero se hace un recorrido por la historia de las colecciones de prueba que se utilizan en la mayoría de las publicaciones del área. Luego se presenta otro componente necesario, como lo son los juicios de relevancia, que indicarán cuáles de los documentos recuperados por un sistema le son útiles a un usuario. Por último se enumeran las principales métricas de evaluación con las que es posible comparar un sistema con otros.

El Capítulo 4 presenta las contribuciones teóricas de esta tesis. Se presenta el problema que tienen los sistemas actuales de IR para incorporar el contexto del usuario en las búsquedas, haciendo una revisión de la literatura existente en el tema. Luego se presenta la plataforma sobre la cual se basa el método incremental propuesto, para luego desarrollarlo de forma completa. El capítulo finaliza con los alcances y aplicaciones del método presentado.

El Capítulo 5 expone un análisis y una comparación de los resultados experimentales obtenidos. Se presenta la estructura de la plataforma de evaluación que es parte de las contribuciones de esta tesis, así como también las nuevas métricas de evaluación desarrolladas. Luego se muestran los resultados obtenidos, ilustrando la aplicación de la plataforma propuesta en la evaluación de distintos métodos de IR.

El Capítulo 6 establece las conclusiones de esta tesis y señala el trabajo de investigación a futuro.

Última actualización el Jueves 26 de Abril de 2012 10:04
 
Licencia Creative Commons
Caracterización Formal y Análisis Empírico de Mecanismos Incrementales de Bísqueda basados en Contexto por Carlos M. Lorenzetti se encuentra bajo una Licencia Creative Commons Atribución-NoComercial-CompartirDerivadasIgual 3.0 Unported.
Basada en una obra en bc.uns.edu.ar.