N-gramas sintácticos no-continuos

Authors: Grigori Sidorov

Polibits, Vol. 48, pp. 69-78, 2013.

Abstract: En este artículo presentamos el concepto de los n-gramas sintácticos no-continuos. En nuestros trabajos previos hemos introducido un concepto general de los n-gramas sintácticos, es decir, los n-gramas que se construyen siguiendo las rutas en un árbol sintáctico. Su gran ventaja consiste en que ellos permiten introducir la información puramente lingüística (sintáctica) en los métodos computacionales de aprendizaje automático. Su cierta desventaja está relacionada con la necesidad de realizar el análisis sintáctico automático previo. También hemos demostrado que la aplicación de los n-gramas sintácticos en la tarea de atribución de autoría da mejores resultados que el uso de los n-gramas tradicionales. Sin embargo, en aquellos trabajos sólo hemos considerado los n-gramas sintácticos continuos, es decir, durante su construcción no se permiten bifurcaciones en las rutas sintácticas. En este artículo, estamos proponiendo a quitar esta limitación, y de esa manera considerar todos los sub-árboles de longitud n de un árbol sintáctico como los n-gramas sintácticos no-continuos. Cabe mencionar que los n-gramas sintácticos continuos es un caso particular de los n-gramas sintácticos no-continuos. El trabajo futuro debe mostrar qué tipo de los n-gramas es más útil y para que tareas de PLN. Se propone la manera formal de escribir un n-grama sintáctico no-continuo usando paréntesis y comas, por ejemplo, “a b [c [d, e], f]”. También en este artículo presentamos ejemplos de construcción de los n-gramas sintácticos no-continuos para los árboles sintácticos obtenidos usando FreeLing y el parser de Stanford.

Keywords: Modelo de espacio vectorial, n-gramas, n-gramas sintácticos continuos, n-gramas sintácticos no-continuos

PDF: N-gramas sintácticos no-continuos
PDF: N-gramas sintácticos no-continuos