2. 1. Identificar los factores de riesgo del cáncer de próstata 2. Predecir si una persona tendrá un ataque al corazón en base a
mediciones de tipo demográfico, alimenticias y clínicas
outlier
Rojo:
personas con
enfermedad del
corazón
Verde:
sin enfermedad
del corazón
A predecir: PSA (antígeno prostático específico)
3. 3
3. Crear un detector de spam en emails
Datos: 4601 emails enviados a un trabajador de los
laboratorios de HP, antes del año 2000 y llamado
George. Cada uno etiquetado como “spam” o “email”
Variables de entrada: frecuencias relativas de 57 de las
palabras y símbolos que más aparecen en estos
mensajes:
4. Identificar los números escritos a mano de los
códigos postales
Para cada uno de estos números (imágenes) existe una
etiqueta que le dice al sistema que se trata de un 0, un 1,
etc…
4. 4
5. Clasificar una muestra de tejido en una de varias clases de
cáncer, basado en el perfil de expresión génica
6. Establecer una relación entre el salario y variables de tipo
demográfico
5. 5
7. Clasificar, por su uso, los pixels en una imagen de LANDSAT 8. Predecir si el índice bursátil S&P500 crecerá o decrecerá en
función de los 5 últimos días
6. 6
9. Agrupaciones de células cancerígenas en función de su expresión génica
Datos: 6830 mediciones de expresión génica
para cada uno de las 64 células cancerígenas.
Los 64 tipos de células cancerígenas suponen
un dataset de 64 dimensiones. Sin embargo, los
hemos “agrupado” en dos: Z1 y Z2 para poder
graficarlos.
En el gráfico de la izquierda se han propuesto 4
agrupamientos y en el de la izquierda 14.
Se puede ver que las células cancerígenas del
mismo tipo tienden a estar cercanas en el
espacio bidimensional.