Ejemplo Weka Titanic

Abarca “Reglas de Asociación y Dependencias” a

partir de datos sobre el hundimiento del Titanic.

Los datos se encuentran en el fichero “titanic.arff” y

corresponden a las características de los 2.201
pasajeros del Titanic. Estos datos son reales y se han
obtenido de: quot;Report on the Loss of the ‘Titanic’
(S.S.)quot; (1990), British Board of Trade Inquiry Report_
(reprint), Gloucester, UK: Allan Sutton Publishing.

Titanic Database:

relation titanic

attribute C {crew,first,second,third}

attribute age {adu,enf}

attribute sex {f,m}

attribute Class {mort,surv}


Data:

crew,adu,m,surv

crew,adu,m,surv

crew,adu,f,surv

third,adu,m,mort

...


Para este ejemplo sólo se van a considerar cuatro

variables:
• Clase (0 = tripulación, 1 = primera, 2 = segunda, 3 =
tercera)
• Edad (1 = adulto, 0 = niño)
• Sexo (1 = hombre, 0 = mujer)
• Sobrevivió (1 = sí, 0 = no)

Para ello, vamos a ver que reglas de asociación

interesantes podemos extraer de estos atributos. Para
ejecutar los métodos en Weka de reglas de
asociaciación, seleccionamos la ventana de associate.

Entre otros, este sistema de minería de datos provee

el paquete “WEKA.associations.Apriori” que contiene
la implementación del algoritmo de aprendizaje de
reglas de asociación Apriori. Podemos configurar este
algoritmo con varias opciones: con la opción
“UpperBoundMinSupport” indicamos el límite superior
de cobertura requerido para aceptar un conjunto de
ítems.
Si no se encuentran conjuntos de ítems suficientes

para generar las reglas requeridas se va disminuyendo
el límite hasta llegar al límite inferior (opción
“LowerBoundMinSupport”).

Con la opción “minMetric” indicamos la confianza

mínima (u otras métricas dependiendo del criterio de
ordenación) para mostrar una regla de asociación; y
con la opción “numRules” indicamos el número de
reglas que deseamos que aparezcan en pantalla.

La ordenación de estas reglas en pantalla puede

configurarse mediante la opción “MetricType”,
algunas opciones que se pueden utilizar son: confianza
de la regla, lift (confianza divido por el número de
ejemplos cubiertos por la parte derecha de la regla), y
otras más elaboradas.

En cada regla, tenemos la cobertura de la parte izquierda y

de la regla, así como la confianza de la regla. Podemos
conocer alguna regla interesante aunque otras los son
menos. Por ejemplo, la regla 1 indica que, como era de
esperar toda la tripulación es adulta. La regla 2 nos indica lo
mismo, pero teniendo en cuenta a los varones.

Parecidas conclusiones podemos sacar de las reglas 4, 5 y 6.

La regla 3 nos indica que los varones que murieron fueron en
su mayoría adultos (97%). La regla 7 destaca que la mayoría
que murieron fueron adultos (97%). Y finalmente la 10
informa que la mayoría de los muertos fueron hombres
(92%).

Cabe destacar que la calidad de las reglas de asociación que

aprendamos muchas veces viene lastrada por la presencia de
atributos que estén fuertemente descompensados. Por
ejemplo, en este caso la escasa presencia de niños provoca
que no aparezcan en las reglas de asociación, ya que las
reglas con este ítemset poseen una baja cobertura y son
filtradas. Podemos mitigar parcialmente este fenómeno si
cambiamos el método de selección de reglas.

A CONTINUACION VEREMOS EL COMPORTAMIENTO DE

LOS DEMAS ALGORITMOS: FiltroAsociado, HotSpot, A
priori-Predictivo y el Tertius.

Es igual al Apriori normal, devuelve los mismos resultados

para este
caso.

Actúa de manera distinta al Usar un valor de conteo mínimo

para los segmentos, en este caso de 726 instancias, usa
también un factor máximo de ramificación de 2, y una
mejora mínima en margen del 1%.

Con estas métricas para nuestro ejemplo devuelve valores

de:
No sobrevivieron el 67.7% (1490/2201)

De sexo masculino el 78.8% (1364/1731)

 Eran adultos el 79.72% (1329/1667)
De ambos sexos adultos: 68.74% (1438/2092)


Es más exhaustivo y combina las probabilidades de forma

distinta.

Consideró 440 hipótesis de las cuales exploró 332, Así:


Usando el “ADTree ” obtenemos los resultados:


El árbol generado para “ADTree” será


El árbol generado para “FT” será


El árbol generado para “J48” será


Usando “LADTree” será


El árbol generado para “LADTree” será


El árbol generado para “LMT” será


El árbol generado para “NBTree” será


Y Usando “REPTree” será


El árbol generado para “REPtree” será


La explicación inicial del ejemplo fue extraída

de:
http://users.dsic.upv.es/~jorallo/docent/doctora
t/weka.p

Ejemplo Weka Titanic

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Similar to Ejemplo Weka Titanic

Similar to Ejemplo Weka Titanic (20)

Recently uploaded

Recently uploaded (16)

Ejemplo Weka Titanic