2. Lo Scenario
Catene di centri commerciali con
programma di fidelity
Servizio di OCR degli scontrini per
effettuare la raccolta punti per i clienti di
centri commerciali
Profilazione degli utenti iscritti al
programma di fidelity.
3. L'Analisi
Giornalmente vengono emessi grossi volumi di scontrini in
un singolo centro commerciale.
Le informazioni contenute in uno scontrino non sono
strutturate.
Per ottenere dei dati rilevanti, è necessario effettuare
delle procedure di estrazione e pulizia dell'informazione.
4. Cosa voglio ottenere?
Effettuare degli insight per
stime su previsioni di acquisti futuri degli utenti
capire se esistono delle correlazioni tra i dati di
profilazione dell'utente, e quello che comprano.
Trovare delle correlazioni tra i prodotti acquistati.
5. Cosa devo risolvere?
Gli scontrini fanno riferimento a diversi negozi e
contengono dati grezzi.
I dati di profilazione di un utente sono memorizzati nel
programma di fidelity, e l'unica correlazione con lo
scontrino è la scansione dello scontrino stessa.
Le informazioni che un OCR riesce a leggere da uno
scontrino, spesso possono avere problemi di scansione con la
lettura di caratteri sbagliati.
Non esiste una anagrafica dei prodotti contenuti negli
scontrini.
6. Architettura - Overview
Flusso dell'informazione
con tutte le
trasformazioni a partire
dall'immagine, fino ad
arrivare al dato finale.
7. Architettura - Acquisizione
Il Totem effettua la scansione e comunica al cliente i punti
che ha accumulato per il suo programma di fidelity.
La scansione dell'immagine dello scontrino viene inviata sul
cloud, e viene associata ai dati di profilazione dell'utente,
privati della correlazione dei suoi dati anagrafici precisi.
Uno script sul cloud rieffettuerà la scansione dell'immagine,
e andrà a creare un documento composto dai dati di
profilazione dell'utente, e la scansione testuale. Questo
documento verrà memorizzato su Elasticsearch
9. Architettura - Estrazione
I dati dell'ocr vengono indicizzati secondo una categoria di riferimento.
La definizione della categoria avviene in base al tipo di prodotto di cui si vuole conoscere
la presenza o meno negli acquisti di questi scontrini.
Esempi di categorie:
Formaggi:
Stracchino
Pecorino
Parmigiano
....
Salumi:
Mortadella
Salame
.....
10. Architettura - Caricamento
La ricerca viene effettuata sui singoli termini, considerando dei
margini di errore sui caratteri.
Elasticsearch consente questo tipo di ricerche senza che sia
necessario attendere tempi enormi nell'ottenimento dei risultati
Una ricerca sulla categoria Formaggi, produce quindi una espansione
di termini, ottenendo i seguenti match su un campione di test:
"crescenza", "stracchino", "crescenzr", "stracchinc", "parmigiano",
"stracchin", "straochino", "parmigzano", "parmigiana",
"stracchzno", "crewcenza"
Viene quindi creata una replica sul database documentale dove per
ogni scontrino viene salvata, l'informazione dei match eseguiti per
ciascuna categoria
11. Architettura - Analytics
Utilizzando un DB documentale, è quindi possibile effettuare le
ricerche su un sistema semi-strutturato
Le query effettuate su questo DB hanno già un valore informativo.
Esempi di informazioni estraibili
In che percentuale sono stati emessi scontrini, nella zona "Monza
Brianza", contenenti la categoria "Formaggi", il cui acquirente
appartiene alla fascia di età "30-45 anni"?
In che percentuale gli scontrini che contengono la categoria
"Formaggi", contengono anche la categoria "Salumi"?
Quali tra le categorie utilizzate per l'indicizzazione, è presente su
un maggior numero di scontrini?
12. Servizio SaaS
Tali informazioni, potrebbero essere reperibili tramite un
servizio SaaS, in cui il commerciante può pagare un canone
per il semplice utilizzo della piattaforma:
In maniera mirata, potrebbe ottenere informazioni sugli
acquisti che fanno riferimento alla propria provincia di
appartenenza.
Potrebbe personalizzare le categorie di ricerca, andando a
definire i raggruppamenti che più identificano il proprio
obiettivo.
Non si farebbe carico di costi infrastrutturali, e paga solo
per quanto utilizza.