Classificazione documenti spark_ml_ciuffa

Classificazione di documenti
con Spark ML
1

CLOUDERA
Cloudera è una piattaforma che si basa su Apache
Hadoop:
• Data engineering
• Machine Learning
• Analytics
2

APACHE SPARK
Elaborazione di grandi moli di dati su cluster
Supporta i linguaggi più diffusi in ambito statistico:
Python, R
Diverse librerie del mondo Java incorporate
Può essere eseguito:
• Autonomamente
• All'interno di YARN
4

APACHE SPARK - Componenti
5
Interfacce di basso livello
RDD Variabili distribuite
Interfacce strutturate
DataFrame DataSet SQL
Streaming
strutturato
Apprendimento
automatico
Librerie ed
ecosistema

APACHE SPARK – Map-Reduce
• Problema che può essere suddiviso in sotto-problemi
• Invio ai vari nodi del cluster i sotto-problemi e le operazioni
da effettuare
• I vari nodi risolvono i sotto-problemi
• Combino le soluzioni ai sotto-problemi
• Scrivo la soluzione
6

APACHE SPARK – Innovazione
Spark ha permesso di risolvere più velocemente alcuni
problemi usando di più la RAM, il cui prezzo è sceso.
7

APACHE SPARK – Linguaggi
• Nel mondo dell'analisi dei dati, Python ed R sono molto diffusi
• Spark supporta Python ed R
• L'efficienza di usare Python o R non è la stessa di Scala
8

SCALA
 Spark è scritto in Scala
 Kafka è scritto in Java e Scala
 Concetti di Scala validi per programmazione distribuita
9

SCALA
 Un linguaggio di programmazione moderno
 Tipizzazione statica
 Programmazione a oggetti e funzionale
 Gira sulla Java Virtual Machine
10

Come acquisire un dataset con Apache Spark?
val employeesDataRaw : RDD[String] = sqlContext.read.text(filePathTraining)
.map(x => x.getString(0))
val rowEmployeesRDD: RDD[Row] = employeesDataRaw.map(_.split(";"))
.map(p => Row(p(0), p(1), p(2)))
Il risultato sarà un RDD che contiene tutte le righe del file acquisito
suddivise per colonne.
Data Preparation con Apache Spark - acquisizione dei dati
12

Acquisendo i dati in un RDD sarà possibile esplorarli,
verificarne la qualità ed effettuare operazioni di cleaning.
Gli RDD ci mettono a disposizione molte funzioni per
analizzare i dati:
https://spark.apache.org/docs/1.6.0/api/scala/index.html#org.apache.spark.rdd.R
DD
Data Preparation con Apache Spark - acquisizione dei dati
13

Feature transformation:
- trasformazione dei dati per migliorare l’accuratezza dell’algoritmo.
Feature extraction and feature engineering
- trasformazione dei dati grezzi in caratteristiche (features) indonee per il
modello.
Feature selection
- rimozione delle caratteristiche (features) non necessarie.
Estrarre, trasformare e selezionare le features
14

Il processo di Tokenization è utilizzato per acquisire da un testo dei termini
individuali (normalmente delle parole).
Un modo avanzato di eseguire il processo di tokenization è applicare le regular
expressions (regex).
Per approfondimenti: https://spark.apache.org/docs/1.6.0/ml-features.html#tokenizer
Feature Transformer - Tokenizer
15

Per approfondimenti: https://spark.apache.org/docs/1.6.0/ml-features.html#tokenizer
Feature Transformer – Tokenizer con Spark
16

Le Stop Words sono delle parole che devono essere escluse, poiché appaiono
frequentemente oppure non sono considerate importanti.
Si possono quindi utilizzare delle tecniche per rimuovere una lista di stop words.
Per approfondimenti: https://spark.apache.org/docs/1.6.0/ml-features.html#stopwordsremover
Feature Transformer - StopWordsRemover
17

Per approfondimenti: https://spark.apache.org/docs/1.6.0/ml-features.html#stopwordsremover
Feature Transformer – StopWordsRemover con Spark
18

Spark ML
Spark include delle librerie di Machine Learning:
19

Comparazione tra MLlib ML
MLlib:
- meno recenti
- RDD
ML:
- più recenti
- DataFrame
20

Spark ML Pipeline - addestramento
Il metodo fit() permette di addestrare il modello.
val model = pipeline.fit(trainingDataDF)
Il modello sarà addestrato attraverso i dati contenuti in un
DataFrame.
21

Spark ML Pipeline - addestramento
22

Spark ML Model - predizione
Il metodo transform() permette di generare un DataFrame
contenente le predizioni.
val predictionDF = model.transform(testDataDF)
Il DataFrame restituito conterrà le stesse colonne mostrando altre
informazioni tra cui la predizione (label) per ogni riga.
23

Obiettivo: classificare diverse tipologie di documenti.
Come: Utilizzando un modello di classificazione addestrato con delle
parole chiave (features) che caratterizzano una specifica tipologia di
documento.
Tecnologia:
24

ML
Supervised learning Unsupervised learning
Classification
Regression
Clustering
Collaborative
filtering
25

• Naive Bayes
• Gradient Boosting Tree
• Random Forest
Supervised learning
26

Supervised learning - Naive Bayes classifier
Il Naive Bayes classifier è un modello di classificazione che si basa sul teorema
bayesiano
Usando il teorema bayesiano, possiamo trovare la probabilità che A si verifichi
quando occorre B.
I predittori/caratteristiche devono essere indipendenti:
- la presenza di una particolare caratteristica (feature) non influisce su
un’altra.
27

Supervised learning - Naive Bayes classifier
Multinomial Naive Bayes:
Il più usato per problemi di classificazione dei documenti.
Le caratteristiche/predittori vengono usate dal classificatore come frequenza
delle parole presenti in un documento.
Bernoulli Naive Bayes:
Simile al multinomial naive bayes, ma I predittori sono variabili booleane.
Gaussian Naive Bayes:
Quando i predittori accettano soltanto valori continui (quindi non discreti),
questi valori possono essere campionati da una distribuzione gaussiana.
N.B. : Il Gaussian Naïve Bayes non è supportato da Spark 1.6.
28

Ensemble
Ensemble è un concetto di Machine Learning che corrisponde all’idea
di addestrare molteplici modelli usando lo stesso algoritmo di
apprendimento.
Molti learners, con lo stesso obiettivo, sono fusi tra loro per risolvere
uno specifico problema.
Bagging  Random Forest;
Boosting  Gradient Boosting.
31

Bagging
Bagging (Bootstrap Aggregation) è una tecnica utilizzata quando
abbiamo l’esigenza di ridurre la varianza di un albero decisionale.
Questo avviene tramite la creazione di molti subset di dati a partire dal
campione scelto in modo casuale.
La media di diversi alberi risulterà più robusta rispetto a un singolo
albero decisionale.
32

Boosting
Boosting è una tecnica di ensemble per creare una collezione di
predittori.
I learners vengono generati in modo sequenziale.
Ogni nuovo albero cercherà di risolvere gli errori a partire dal
precedente albero.
33

Classificazione dei documenti
39

Obiettivo
A, B, C, E, F, H B, D, E, F, I, N
Individuare la tipologia dei documenti attraverso delle parole chiave.
A, B, E, F, H, S
40
C, D, H, E, F, S

Training set
A B C E F H, DOCTYPE1
A C E F H S, DOCTYPE1
B C E F H S, DOCTYPE1
B D E F I N, DOCTYPE2
D E F G I U, DOCTYPE2
B D F I M N, DOCTYPE2
A B E F H S, DOCTYPE1
A B C F H S, DOCTYPE1
…
41

Estrazione delle caratteristiche
Estrazione delle
caratteristiche
Addestramento
42

Addestramento
Addestramento
Categoria "Moto"
Addestramento
Categoria "Basket"
Addestramento
Categoria "Calcio"
Considerando, nel contesto degli articoli giornalistici sportivi, 4 diverse possibili categorie:
Moto, Basket, Calcio, Formula1:
…
…
…
Training set (Moto)
Training set (Basket)
Training set (Calcio)
Addestramento
Categoria "F1"…
Training set (F1)
43

Classificazione
Classificazione
Categoria "Calcio"
Classificazione
Categoria "Moto"
Classificazione
Categoria "Basket"
Considerando, nel contesto degli articoli giornalistici sportivi, 4 diverse possibili categorie:
Moto, Basket, Calcio, Formula1:
44

Indicizzazione delle features
46

Naive Bayes (multinomial)
Document Probability_Basket Probability_Formula1 Probability_Moto Probability_Soccer Predicted_label
articolo_basket_10.txt 1.0 1,15E-07 5,89E-05 1,13E-01BASKET
articolo_basket_21.txt 0.9999999999929035 6,51E+02 6,24E+04 2,07E+03BASKET
articolo_basket_6.txt 0.9999942261846133 8,60E-01 1,55E+00 5,77E+09BASKET
articolo_calcio_10.txt 9,90E+06 1,74E+07 7,98E+02 0.99999998836085CALCIO
articolo_calcio_21.txt 3,29E+08 4,81E+03 5,87E-01 0.9999996714093776CALCIO
articolo_calcio_5.txt 1,65E-02 4,35E-01 4,59E-03 0.9999999999999996CALCIO
articolo_calcio_9.txt 2,71E+00 3,11E-01 2,04E-02 0.9999999999999998CALCIO
articolo_formula_10.txt 6,31E-17 1.0 4,68E-10 4,79E-13FORMULA
articolo_formula_21.txt 3,63E-03 0.9999999999686426 3,14E+05 4,41E-04FORMULA
articolo_formula_5.txt 2,05E+03 0.9999999990000839 1,00E+04 2,31E-02FORMULA
articolo_moto_10.txt 8,64E-08 1,76E+00 0.9999999999999998 6,93E-05MOTO
articolo_moto_21.txt 6,65E+02 0.9083253161656492 0.09167468291159296 9,22E+05FORMULA
articolo_moto_5.txt 7,42E-02 8,91E+02 0.9999999999991083 1,17E+01MOTO
articolo_moto_7.txt 1,68E+08 1,24E+08 0.9999999708276324 1,26E+04MOTO
articolo_moto_9.txt 1,15E-14 2,69E-01 0.9999999999999998 3,26E-11MOTO
50

Random Forest
Document Probability_Basket Probability_Formula1 Probability_Moto Probability_Soccer Predicted_label
articolo_basket_10.txt 1.0 0.0 0.0 0.0 BASKET
articolo_calcio_10.txt 0.25 0.0 0.022727272727272728 0.7272727272727273 CALCIO
articolo_formula_10.txt 0.041666666666666664 0.75 0.0 0.20833333333333334 FORMULA
articolo_moto_10.txt 0.0 0.0 0.7727272727272727 0.22727272727272727 MOTO
51

Classificazione documenti spark_ml_ciuffa

Recommended

Recommended

More Related Content

Similar to Classificazione documenti spark_ml_ciuffa

Similar to Classificazione documenti spark_ml_ciuffa (20)

More from Deep Learning Italia

More from Deep Learning Italia (20)

Classificazione documenti spark_ml_ciuffa