Experimento de recuperación de información usando las medidas de similitud coseno, jaccard y dice

Luz Stella Garcia Monsalve

Abstract


Con frecuencia resulta extremadamente dispendioso e incluso se puede pensar que físicamente es imposible recuperar información de otra manera que no sea automáticamente, debido al gran volumen de ésta, además, este proceso trae como consecuencia que al no ser preciso, la información relevante será ignorada por el afán de hacer el trabajo rápidamente. [1] Hoy en dia es posible obtener mayores beneficios en dicho proceso de recuperación de información usando herramientas tecnológicas avanzadas diseñadas para tal fin. Tomando como referencia la colección documental de prueba ADI [12], se realizó un experimento que permitió almacenar en tablas los 82 documentos y las 35 consultas que ofrece la colección, para luego aplicar las técnicas de tokenización y stop words y calcular la frecuencia absoluta simple y la frecuencia inversa, para posteriormente hallar los resultados de los coeficientes Coseno, Jaccard y Dice, compararlos y determinar cuál de ellos tiene la mayor precisión.


Full Text:

PDF (Español)

References


Martínez, Beltrán Beatriz.Técnicas del Procesamiento del Lenguaje Natural. Puebla, México. 2007.

La Serna, Nora. Roman, Ulises. Osorio, Norberto. Benito, Oscar. Espezua, Jimy. Vega, Hugo. Estudio y Evaluación de los Sistemas de Recuperación de información. 2004.

Vallez, Mari y Pedraza-Jiménez, Rafael. El Procesamiento del Lenguaje Natural en la Recuperación de Información Textual y areas afines. http://www.hipertext.net/web/pag277.htm

Jackson Peter. Moulinier Isabelle. Natural language processing for online applications: text retrieval, extraction, and categorization.

Manning, C. et al. Introduction to InformationRetrieval. Cambridge University Press, 2008. URL http://www.sli.stanford.edu/~hinrich/information-retrieval-book.html

Martin, P.,Sergio, Modelos de recuperación, disponible en: http://modelosderecuperacioni.iespana.es/

Angel F., Rodríguez Zazo, Figuerola G., Alonso J.L. and Gómez R., Recuperación de Información utilizando el Modelo Vectorial, Departamento de informática y automática, Universidad de Salamanca, 2002, Mayo.

El procesamiento del lenguaje natural, tecnología en transición. Jaime Carbonell. Congreso de la Lengua Española, Sevilla,1992.

Disponible en la página http://www.sc.ehu.es/sbweb/fisica/cursoJava/fundamentos/colecciones/stringtokenizer.htm

Enríquez, Fernando, Técnicas de Bootstrapping en el Procesamiento del Lenguaje Natural.

Molina, M., Antonio, Desambiguación en procesamiento del lenguajenatural mediante técnicas de aprendizaje automático.

http://ir.dcs.gla.ac.uk/resources/ test_collections/

Figuerola, C.G.; Gómez Díaz, R.; López de san Roman, E. Stemmingand n-grams in Spanish: an evaluation of their impact on information retrieval.


Refbacks

  • There are currently no refbacks.


Copyright (c) 2014 TECCIENCIA