Minería de datos,
definido como el proceso de extracción de conocimiento de grandes volúmenes de datos,
ha comenzado a jugar un rol importante en muchos dominios de aplicación
resultando ésta especialmente útil en dominios de la medicina y biología, como también
en dominios de competencia como puede ser en un entorno comercial o deportivo.
El conocimiento
es representado como un conjunto de relaciones entre los datos, usualmente
conocidos como patrones. De los
cuales es importante detectar aquellos
que puedan ser particularmente útiles, también conocidos como patrones interesantes. La minería de
datos afronta dos importantes problemas: En primer lugar, establecer las
posibles relaciones entre los datos que dan lugar a la generación de patrones;
y en segundo lugar detectar cuándo un
patrón puede ser
clasificado como potencialmente interesante.
Patrones que se
repiten con cierta regularidad, además de ser interesantes per se, pueden ser
utilizados para clasificar nuevas instancias de valores. Con tal objetivo, se
pueden utilizar conjuntos de patrones para representar clases de datos de forma
que las nuevas instancias pueden ser catalogadas en distintas clases
según su afinidad
(cercanía) a los patrones que describen cada clase.
Análogamente, se
pueden clasificar nuevas instancias de datos utilizando patrones que capturen
simplemente las diferencias que existen entre las distintas clases. La ventaja
de este acercamiento es que usualmente la cantidad de patrones necesarios para representar
la diferencia entre dos clases es significativamente menor a utilizar patrones
para representar cada clase. Estos patrones son conocidos como patrones emergentes, y han demostrado
ser muy versatiles aún en otros dominios de aplicación como ser la detección
temprana de situaciones anómalas, como pueden ser cambios climáticos, detección
de intruso, etc.
El objetivo
principal de esta tesis consiste en presentar una nueva forma de obtener
patrones emergentes que permita mejorar las herramientas que hacen uso de
dichos patrones.
Palabras clave: Minería de Datos, Patrones Emergentes,
Patrones Maximales, Patrones Frecuentes, Clasificadores