Caracterización Formal y Análisis Empírico de Mecanismos Incrementales de Búsqueda basados en ContextoTesis Doctoral en Ciencias de la Computación - Universidad Nacional del Sur por Carlos M. Lorenzetti Conclusiones y trabajo a futuroConclusionesA lo largo de esta tesis se desarrolló una herramienta de recuperación de información que ayuda al usuario en la tarea que está realizando, brindándole información relevante y basada en su contexto actual. Para ello se propuso una solución al problema de la sensibilidad semántica, que es la limitación que surge cuando no se puede hallar una relación entre dos documentos similares semánticamente, porque contienen distintos términos en su vocabulario, resultando en un falso-negativo al intentar recuperar material relevante. Además, mediante la identificación de buenos discriminadores de tópicos, la propuesta presentada en esta tesis ayuda a mitigar el problema de falsos-positivos, que aparece cuando el mismo término (p. ej., java) aparece en dos tópicos diferentes. El método enunciado trabaja aprendiendo incrementalmente mejores vocabularios de un gran conjunto de datos como la Web. A partir de este trabajo se concluye que la información contextual puede ser utilizada con éxito para acceder a material relevante. Sin embargo, los términos más frecuentes en ese contexto no son necesariamente los más útiles. Es por ello que se propone un método incremental para el refinamiento del contexto, que se basa en el análisis de los resultados de las búsquedas y que mostró ser aplicable a cualquier dominio caracterizable por términos. En este trabajo se demostró que al implementar un método incremental semisupervisado de refinamiento del contexto se puede mejorar el rendimiento alcanzado por un método base, el cual envía consultas generadas directamente a partir del contexto inicial, y mejorar también el rendimiento del método de refinamiento Bo1-DFR, el cual no refina las consultas basándose en un contexto. Esto muestra la utilidad de aprovechar simultáneamente los términos existentes en el contexto temático actual y los de un conjunto externo de datos a la hora de aprender mejores vocabularios y de refinar consultas automáticamente. En esta tesis se implementó una plataforma de evaluación de métodos y técnicas para la recuperación de información. La misma permitió el desarrollo de los algoritmos presentados en este trabajo, proporcionando el soporte necesario para un análisis detallado de los resultados obtenidos. Dentro de esta plataforma también se implementaron las nuevas métricas propuestas en esta tesis. Una de ellas es la Similitud novedosa, una medida de comparación entre documentos que descarta los términos que pudieran introducir un sesgo en la medición, favoreciendo la exploración de nuevo material. La otra es la Precisión semántica, una métrica para la comparación de los resultados de un sistema de recuperación de información. Esta medida brinda una noción más rigurosa de la calidad de los documentos recuperados por un algoritmo de IR, al incorporar la noción de relevancia parcial entre tópicos. En la literatura se han propuesto otros métodos basados en corpus para atacar el problema de la sensibilidad semántica. Por ejemplo, el análisis de la semántica latente visto en la Subsección 2.1.4. Otra técnica de este estilo que se aplicó para estimar la similitud semántica en PMI-IR [Tur01]. Este método de recuperación de información está basado en la información de polaridad mutua, que mide la relación entre dos elementos (p. ej., términos) comparando sus frecuencias observadas con respecto a las esperadas. Estas técnicas se diferencian de la que se propone en que no se basan en un proceso incremental de refinamiento de consultas, sino que utilizan una colección predefinida de documentos para identificar relaciones semánticas. Además, estas técnicas no distinguen las nociones de descriptores y discriminadores de tópicos. Las técnicas para la elección de los términos de las consultas propuestas en este trabajo están inspiradas y motivadas sobre la misma base de otros métodos de expansión y refinamiento de consultas [SW02,BSWZ03]. Sin embargo, los sistemas que aplican estos métodos se diferencian de la plataforma propuesta en que el proceso se realiza a través de consultar o navegar en interfaces que necesitan la intervención explícita del usuario, en lugar de formular consultas automáticamente. En los sistemas de recuperación proactivos, el uso del contexto juega un rol vital a la hora de seleccionar y filtrar información. Tales sistemas observan las interacciones del usuario e infieren necesidades adicionales de información, buscando documentos relevantes en la Web u otras librerías electrónicas. Aprender mejores vocabularios es una manera de aumentar la percepción y la accesibilidad del material útil. Se propuso un método prometedor para identificar la necesidad detrás de la consulta, lo cual es uno de los principales objetivos para muchos servicios y herramientas web actuales y futuras. Trabajo a futuroDentro de las limitaciones encontradas durante el desarrollo de esta tesis, la más importante resultó ser el tiempo de ejecución de los algoritmos presentados. La velocidad es un obstáculo muy grande a la hora de realizar una evaluación con usuarios y es un aspecto a tener en cuenta a futuro. Por otro lado, el tiempo límite de ejecución podría incluirse como un parámetro a ser definido por el usuario, indicando qué tanto está dispuesto a esperar por resultados o si en cambio, desea un determinado número de documentos novedosos sin importar el tiempo de espera. Otro aspecto que no fue abordado dentro de los objetivos y contribuciones de estas tesis es la determinación del contexto actual del usuario, que también es de especial interés al momento de realizar las evaluaciones con usuarios. En lugar de esto, en las evaluaciones presentadas, se utilizó un conjunto de términos extraídos de una página de un tópico dado o la descripción de un tópico realizada por un editor de una ontología temática. En la literatura existen diversos trabajos que abordan el tema del reconocimiento automático del contexto actual de un usuario [BSY95,Bha00,BL01,BSHB06]. Se está trabajando actualmente para aplicar el método propuesto para el aprendizaje de mejores vocabularios en otras tareas de IR, como la clasificación de texto. También se están analizando las distintas estrategias que ayudan a mantener al sistema enfocado en el contexto inicial, luego de que se han llevado a cabo varios pasos incrementales. Por otro lado, se espera adaptar la plataforma propuesta para evaluar otras aplicaciones de recuperación de información, tales como algoritmos de clasificación y clustering. Se ampliará la plataforma de evaluación presentada en esta tesis con el propósito de ponerla a disponibilidad de la comunidad de IR, lo que resultará de gran utilidad a la comunidad científica del área, proveyéndola de una herramienta que permitirá analizar de manera objetiva la efectividad de nuevos métodos. Entonces, se diseñará un instrumento de evaluación para sistemas de IR basado en un gran número de tópicos y documentos obtenidos a partir de ontologías de tópicos, para luego integrarlo con métodos de evaluación existentes y novedosos. En tal sentido será importante el uso de las nociones de similitud semántica y relevancia parcial incorporadas a partir de esta tesis. Como se mostró en los capítulos anteriores, la construcción de colecciones de prueba ha merecido especial atención del ámbito de la IR experimental, ya que analizar grandes colecciones de documentos y juzgar su relevancia es una tarea sumamente costosa, especialmente cuando los documentos cubren tópicos diversos. A la luz de estas necesidades y dificultades, y a partir de ontologías de tópicos editadas por humanos, tales como ODP, hemos desarrollado, y esperamos seguir refinando, un marco de experimentación para la evaluación automática y semi-automática de sistemas de IR, aprovechando el número masivo de relaciones disponibles entre tópicos y documentos. |
Última actualización el Jueves 26 de Abril de 2012 10:11 |