Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Kea s.r.l. | Via Strà, 102 | 37042 Caldiero (VR)
Tel. / Fax: +39 045 6152381
Web: www.keanet.it | E-mail: info@keanet.it
1...
Kea s.r.l. | Via Strà, 102 | 37042 Caldiero (VR)
Tel. / Fax: +39 045 6152381
Web: www.keanet.it | E-mail: info@keanet.it
2...
Kea s.r.l. | Via Strà, 102 | 37042 Caldiero (VR)
Tel. / Fax: +39 045 6152381
Web: www.keanet.it | E-mail: info@keanet.it
3...
Kea s.r.l. | Via Strà, 102 | 37042 Caldiero (VR)
Tel. / Fax: +39 045 6152381
Web: www.keanet.it | E-mail: info@keanet.it
4...
Kea s.r.l. | Via Strà, 102 | 37042 Caldiero (VR)
Tel. / Fax: +39 045 6152381
Web: www.keanet.it | E-mail: info@keanet.it
5...
Kea s.r.l. | Via Strà, 102 | 37042 Caldiero (VR)
Tel. / Fax: +39 045 6152381
Web: www.keanet.it | E-mail: info@keanet.it
6...
Kea s.r.l. | Via Strà, 102 | 37042 Caldiero (VR)
Tel. / Fax: +39 045 6152381
Web: www.keanet.it | E-mail: info@keanet.it
7...
Kea s.r.l. | Via Strà, 102 | 37042 Caldiero (VR)
Tel. / Fax: +39 045 6152381
Web: www.keanet.it | E-mail: info@keanet.it
8...
Upcoming SlideShare
Loading in …5
×

Tassonomie: dizionari, glossari, thesauri, ontologie e gerarchie per organizzare i contenuti, rendendoli usabili e ricercabili

297 views

Published on

Report sull’interessante libro di Heather Hedden, The Accidental Taxonomist, Information Today Inc., Meadford New Jersey, USA, 2010

Published in: Marketing
  • Be the first to comment

  • Be the first to like this

Tassonomie: dizionari, glossari, thesauri, ontologie e gerarchie per organizzare i contenuti, rendendoli usabili e ricercabili

  1. 1. Kea s.r.l. | Via Strà, 102 | 37042 Caldiero (VR) Tel. / Fax: +39 045 6152381 Web: www.keanet.it | E-mail: info@keanet.it 1 Tassonomie: dizionari controllati, glossari, thesauri, ontologie e classificazioni gerarchiche Petra Dal Santo – KEA S.r.l. (dalsanto@keanet.it) | Settembre 2016 Tassonomie: dizionari, glossari, thesauri, ontologie e gerarchie per organizzare i contenuti, rendendoli usabili e ricercabili Report sull’interessante libro di Heather Hedden, The Accidental Taxonomist, Information Today Inc., Meadford New Jersey, USA, 2010 Uso del termine “tassonomia” Heather Hedden usa in modo estensivo il termine tassonomia per indicare: • Dizionari controllati, glossari o Liste di termini finalizzate a uno scopo. La gestione dei termini è controllata, per ragioni di coerenza  Termini preferiti  Termini non preferiti che fanno riferimento a quelli preferiti  Sinonimi (di pari grado) o ANSI/NISO Z39. 19-2005 è lo standard che regola la gestione dei dizionari controllati monolingua • Thesauri o Liste di termini controllati che stanno in una determinata relazione fra loro o Non solo relazione di equivalenza fra sinonimi e termini preferiti / non-preferiti, ma anche gli altri due tipi di relazione standard (gerarchia e associazione):  Equivalenza • Sinonimi, termini preferiti e non-preferiti • Nel contesto della navigazione web, i termini preferiti possono essere visualizzati nell’albero di classificazione, mentre quelli non-preferiti possono essere supportati dal motore di ricerca (anche mediante funzioni di ricerca guidata, suggerimento, auto-completamento, ecc.)  Gerarchia • Più generici, più specifici • Un particolare tipo di relazione gerarchica è l’istanza, es. un nome proprio (di persona, luogo, azienda, ecc.) che appartiene a una classe (es. Dante Alighieri appartiene alla classe degli scrittori e ne è quindi un’istanza) • La relazione fra tutto e parte va considerata gerarchica solo quando si tratta di parti non scindibili dal tutto, cioè parti costitutive del tutto (es. parti di un organismo, di un’organizzazione, di un sistema chiuso, ecc.) • La classificazione gerarchica può supportare la poli-gerarchia, cioè il fatto che un elemento Figlio sia correlato a più elementi Padre, anche
  2. 2. Kea s.r.l. | Via Strà, 102 | 37042 Caldiero (VR) Tel. / Fax: +39 045 6152381 Web: www.keanet.it | E-mail: info@keanet.it 2 Tassonomie: dizionari controllati, glossari, thesauri, ontologie e classificazioni gerarchiche Petra Dal Santo – KEA S.r.l. (dalsanto@keanet.it) | Settembre 2016 appartenenti a sistemi di classificazione diversi (es. Grande Lago Salato può appartenere sia a Laghi | Territorio, sia a Utah | Stati)  Associazione • Termini correlati, collegati allo stesso Padre e parzialmente sovrapposti (es. Tasse > Locali e Tasse > Sulla proprietà: i due termini hanno una relazione di associazione, perché negli USA le tasse sulla proprietà sono perlopiù tasse locali) • Va creata un’associazione fra termini, quando la maggior parte degli utenti, cercando il termine A è interessato ad accedere anche ai contenuti correlati al termine B o A ogni termine possono essere associate note che, per esempio, ne esplicitano il contesto d’uso • Ontologie o Hanno caratteristiche affini ai thesauri, ma con l’obiettivo di descrivere un dominio del sapere e di supportare inferenze (in grado di generare nuova conoscenza e di guidare l’azione, anche di software. Esempio di inferenza: se A è la madre di B, in base a una regola (madre = donna) è possibile inferire che A è di sesso femminile) o Gestisce relazioni semantiche fra concetti (es. possiede / è posseduto; produce / è prodotto; cura / è curato; corretto / non corretto [per caratterizzare termini non-preferiti che presentano errori ortografici comuni]), conferendo senso ai tre tipi di relazione standard di equivalenza, gerarchia e associazione e rendendo più rilevanti i risultati di ricerca / esplorazione da parte dell’utente In dizionari controllati, glossari, thesauri e ontologie il focus non è sulla classificazione gerarchica, cioè sulla navigazione dei contenuti, ma sui termini e sul loro supporto alla ricerca. Tuttavia, i termini contenuti in dizionari controllati, glossari, thesauri e ontologie possono però essere organizzati in insiemi omogenei e/o fungere da base per l’etichettatura dei livelli di classificazione gerarchica dei contenuti. • Classificazioni gerarchiche o I nomi degli elementi di classificazione possono essere termini provenienti da dizionari controllati o Supportano la navigazione. In termini generali, le tassonomie sono sistemi gerarchici o non gerarchici di organizzazione della conoscenza, finalizzati a indicizzare i contenuti, rendendoli ricercabili e navigabili. Le tassonomie contribuiscono a trasformare le informazioni potenziali in informazioni attuali per una determinata persona in un determinato contesto. Come realizzare una tassonomia Realizzare una tassonomia è un processo che richiede vari passaggi. Ecco il percorso tracciato dall’autrice: • Analisi o Identificare i concetti su cui basare l’elaborazione dei termini
  3. 3. Kea s.r.l. | Via Strà, 102 | 37042 Caldiero (VR) Tel. / Fax: +39 045 6152381 Web: www.keanet.it | E-mail: info@keanet.it 3 Tassonomie: dizionari controllati, glossari, thesauri, ontologie e classificazioni gerarchiche Petra Dal Santo – KEA S.r.l. (dalsanto@keanet.it) | Settembre 2016  Sorgenti: • Contenuti o Titoli e sottotitoli, denominazione dei prodotti, abstract, didascalie, siti web (titoli, alberi di classificazione), sommari, metadati esistenti, ecc. • Strategie e obiettivi aziendali • Esperti di settore • Utenti (destinatari della tassonomia) o Esigenze e attese, preconoscenze, competitor • Log delle query di ricerca degli utenti • Competitor • Elaborare una prima versione dei termini o I termini sono le etichette dei concetti. A ogni concetto possono corrispondere N termini, sinonimi, preferiti, non-preferiti • Decidere quali termini includere, rispondendo in particolare ai seguenti quesiti: o Il termine rientra nel tema della tassonomia o è fuori tema? o Il volume di contenuti associato al termine è congruo? o Oppure il volume è scarso, ma gli utenti si aspettano comunque di trovare il termine? o Se vi sono termini parzialmente sovrapposti, ma non sinonimi:  Mantenere i termini distinti, se la tassonomia è specialistica e/o se il volume di contenuti associato è congruo  Oppure, se uno dei termini descrive un attributo (una caratteristica) dell’oggetto, allora è opportuno gestirlo come faccetta, anziché come termine di classificazione • Definire il termine preferito, in base a: o Suggerimenti di esperti di settore e utenti (linguaggio usato dagli utenti) o Dizionari controllati esistenti o Standard di settore o Coerenza interna alla tassonomia o Competitor • Formattare i termini in base alle specifiche della norma ANSI/NISO Z39. 19-2005: o Non tutto maiuscolo o Da 1 a 4 parole  Vd. sotto termini pre-coordinati o Non composto solo da verbi o aggettivi o I nomi propri vanno gestiti come rimandi a nomi comuni (categorie) o Plurale (non se concetti astratti, nomi collettivi, ecc.) o Specificare fra parentesi la parola che disambigua un termine o Acronimi solo se più diffusi della forma completa (es. DNA)
  4. 4. Kea s.r.l. | Via Strà, 102 | 37042 Caldiero (VR) Tel. / Fax: +39 045 6152381 Web: www.keanet.it | E-mail: info@keanet.it 4 Tassonomie: dizionari controllati, glossari, thesauri, ontologie e classificazioni gerarchiche Petra Dal Santo – KEA S.r.l. (dalsanto@keanet.it) | Settembre 2016 Termini pre-coordinati I termini possono essere pre-coordinati (es. “scrittori spagnoli”, “formazione forza vendita”), come dettaglia l’autrice: • È preferibile non unire i termini pre-coordinati con la preposizione “e” (meglio scindere il termine in questi casi) • I termini pre-coordinati sono vantaggiosi o In contesti verticali, di nicchia o Se il termine è normalmente cercato dall’utente, che è così facilitato nel trovare / scoprire i contenuti relativi  Obiettivo generale è che l’utente possa raggiungere nel modo più diretto possibile i contenuti per lui rilevanti o Nei contesti in cui l’utente cerca tendenzialmente espressioni chiave a coda lunga tramite il motore di ricerca o Quando la ricerca booleana (es. formazione + forza vendita) non dà la certezza di produrre risultati rilevanti o Se è necessario disambiguare termini o Nella navigazione web in generale • I termini pre-coordinati non sono adatti nella gestione delle faccette (attributi / valori). È preferibile utilizzare un termine singolo per ogni faccetta. Note, attributi / valori: metadati dei termini Oltre che da relazioni (di equivalenza, gerarchia e associazione) con altri termini, ogni termine può essere caratterizzato da note e attributi / valori: • Le note spiegano al comunicatore quando applicare un termine o È possibile gestire vari tipi di note (uso, storia, sorgente, ecc.) o Le note non vanno usate per disambiguare un termine • Gli attributi / valori possono essere utilizzare per esempio per caratterizzare nomi propri (es. data di nascita, professione, indirizzo, ecc.) o Gli attributi / valori possono essere anche di tipo amministrativo (es. ID, stato, data di creazione, data di approvazione, ecc.) o Attributi e valori vanno controllati ai fini della coerenza. Note, attributi / valori sono metadati dei termini, che a loro volta sono metadati dei contenuti. Folksonomy Un particolare tipo di tassonomie sono le folksonomy. Si tratta di termini auto-creati e auto-assegnati dagli utenti a contenuti pubblicati sul web (social tagging, user generated tag). I termini non sono controllati, ma possono essere utilizzati dall’azienda come base per l’arricchimento e l’aggiornamento della propria tassonomia.
  5. 5. Kea s.r.l. | Via Strà, 102 | 37042 Caldiero (VR) Tel. / Fax: +39 045 6152381 Web: www.keanet.it | E-mail: info@keanet.it 5 Tassonomie: dizionari controllati, glossari, thesauri, ontologie e classificazioni gerarchiche Petra Dal Santo – KEA S.r.l. (dalsanto@keanet.it) | Settembre 2016 I vantaggi delle folksonomy stanno nella rispondenza dei termini alle esigenze degli utenti e nel loro aggiornamento continuo. Le criticità riguardano in particolare i seguenti aspetti: • Tendenziale incoerenza, dal momento che i termini non sono controllati • Necessità di una massa critica di utenti per bilanciare errori e squilibri • Non sono adatte a indicizzare volumi elevati di contenuti • Non gestiscono relazioni fra termini e non classificano gerarchicamente i contenuti. Le folksonomy possono essere avviate anche in ambito aziendale. Anche in questo caso il vantaggio sta nel coinvolgimento attivo di utenti interni e di interlocutori a monte e a valle della catena della fornitura. In ambito aziendale le folksonomy sono da valutare soprattutto nel caso di contenuti in rapido mutamento. Le criticità stanno nell’esigenza di coinvolgere una massa critica sufficiente, e nell’impostare metodi e procedure necessari a controllare i termini gestiti dagli utenti, al fine di garantirne la coerenza a posteriori. Tipi di tassonomie Le tassonomie sono principalmente di tre tipi, non necessariamente alternativi fra loro: • Gerarchia (struttura ad albero) o Relazione gerarchica fra termini più estesi e più specifici, in cui i nomi degli elementi di classificazione sono termini controllati o Definire:  La dimensione in base a cui classificare i contenuti (es. le agenzie governative americane possono essere classificate per tipo oppure per stato)  Se supportare o meno la poligerarchia o Per la navigazione web sono consigliati  3 (al massimo 4) livelli di profondità  6-8 sotto-livelli per ogni livello o Vanno tenuti in considerazione i seguenti fattori:  Classificazioni scientifiche e oggetti già naturalmente classificati possono supportare classificazioni più profonde  La classificazione a faccette richiede classificazioni meno profonde  Visualizzazione e interazione dell’utente con la classificazione • Faccette o Vd. sotto facet indicator e faceted classification • Categorie. Faccette e altre particolarità delle tassonomie Nell’ambito della tassonomia è necessario valutare, se supportare le seguenti particolarità: • Node label o È un termine (non di classificazione) che, nel caso di strutture di classificazione ampie, raggruppa in un insieme omogeneo un certo numero di livelli o sotto-livelli
  6. 6. Kea s.r.l. | Via Strà, 102 | 37042 Caldiero (VR) Tel. / Fax: +39 045 6152381 Web: www.keanet.it | E-mail: info@keanet.it 6 Tassonomie: dizionari controllati, glossari, thesauri, ontologie e classificazioni gerarchiche Petra Dal Santo – KEA S.r.l. (dalsanto@keanet.it) | Settembre 2016 • Facet indicator o Un particolare tipo di node label è il facet indicator, che, nel caso di strutture di classificazione ampie, raggruppa in un insieme omogeneo un certo numero di livelli o sotto- livelli in base ad attributi atti a caratterizzare l’oggetto dal punto di vista descrittivo o amministrativo. In una tassonomia relativa alle automobili, sono considerate faccette il tipo (berlina o station wagon), l’alimentazione (a benzina o gasolio), la trasmissione (cambio manuale o automatico). Ogni oggetto è collegato tendenzialmente a più faccette. La faccetta descrive quindi l’oggetto da un particolare punto di vista, da una particolare sfaccettatura  Node label e facet indicator servono a pre-coordinare la navigazione. In entrambi i casi, i contenuti sono prima assegnati alla struttura di classificazione gerarchica e poi la struttura di classificazione gerarchica, ampia, è articolata in insiemi omogenei (basati su concetti di qualsiasi tipo [node label] o su attributi degli oggetti [facet indicator]) per migliorarne la fruibilità da parte dell’utente  Node label e facet indicator vanno bene se la visualizzazione della classificazione gerarchica per l’utente è di tipo “1 pagina per livello”. È meno adatta a essere combinata con la visualizzazione di tipo “tree-view” (ad albero) • Faceted classification o Mentre node label e facet indicator presuppongono la classificazione gerarchica dei contenuti e pre-coordinano la navigazione, la classificazione a faccette:  Assegna ogni contenuto a una o più faccette • Se necessario sono le faccette a essere classificate gerarchicamente, non il contenuto  Non pre-coordina la navigazione, ma permette all’utente di interagire con le faccette. Selezionando una o più faccette, l’utente raffina progressivamente i risultati della navigazione  Non è necessariamente alternativa rispetto alla classificazione gerarchica. Per esempio in un e-shop la classificazione gerarchica si applica ai primi livelli (es. Calzature > Donna), passando poi a una classificazione a faccette (es. permettendo all’utente di raffinare la navigazione in base a marca, tipo di calzatura, colore, misura, prezzo, ecc.) • Short dislay names in context o Si tratta di una strategia per accorciare la lunghezza dei nomi di elementi di classificazione gerarchica, in particolare per la navigazione web. Nel caso di termini pre-coodinati Figli che ripetono il termine Padre, è possibile omettere nei Figli il termine del Padre. Per esempio, anziché Personnel > Personnel recuiting è possibile nominare il sotto-livello Personnel > Recruiting  Non può essere usato nel caso in cui un sotto-livello sia associato a più Padri (perché manca il termine da raggruppare) • Risultati ricorsivi o Selezionando un Padre, l’utente vede tutti i suoi Figli, indipendentemente dalla sotto- categoria a cui appartengono. È utile soprattutto se ci sono oggetti che l’utente può non
  7. 7. Kea s.r.l. | Via Strà, 102 | 37042 Caldiero (VR) Tel. / Fax: +39 045 6152381 Web: www.keanet.it | E-mail: info@keanet.it 7 Tassonomie: dizionari controllati, glossari, thesauri, ontologie e classificazioni gerarchiche Petra Dal Santo – KEA S.r.l. (dalsanto@keanet.it) | Settembre 2016 riconoscere come univocamente appartenenti a una sola sotto-categoria e quando la poligerarchia non è supportata. In questo caso, però, l’alternativa è creare un livello “generale” (deve sempre essere il primo sotto-livello) oppure “varie” (deve sempre essere l’ultimo sotto-livello) in cui inserire questo tipo di elementi Visualizzazione delle tassonomie Per la visualizzazione delle tassonomie l’autrice suggerisce: • Visualizzazione di dizionari controllati, thesauri e ontologie per l’operatore o Alfabetica o Gerarchica o Indice permutato (o ruotato)  Lista di parole in ordine alfabetico, seguite da tutti i termini (in particolare pre- coordinati) che la contengono • Visualizzazione di classificazioni gerarchiche per l’utente (da corredare sempre con briciole di pane). I contenuti associati al livello possono essere esposti per esempio in ordine alfabetico (consigliato, se vi sono più di 10 oggetti), cronologico o in sequenza, per popolarità, per norma / standard / consuetudine o 1 pagina per ogni livello  Richiede meno tempo di caricamento per la singola pagina  È adatta a tassonomie estese e ampie  L’utente non ha la visione sinottica della struttura di classificazione  Non è adatta a tassonomie con livelli di profondità variabile o Tree view (ad albero)  L’utente ha la visione sinottica della struttura di classificazione  Permette all’utente di passare rapidamente da un livello all’altro  È adatta a tassonomie • Profonde • Con livelli di profondità variabile  Meno adatta a tassonomie estese e ampie, in particolare se i sotto-livelli di un livello eccedono lo spazio verticale disponibile sulla videata, perché in questo caso va perduta la visione sinottica  Meno veloce da caricare inizialmente, perché viene caricata tutta la struttura di classificazione. Tassonomie multilingua Dal momento che vi possono essere relazioni diverse tra termini e termini sinonimi e non-preferiti diversi nelle varie lingua, non sempre la tassonomia va tradotta. Può essere opportuno gestire tassonomie diverse nelle varie lingue e mappare le tassonomie tradotte su quella originale, al fine di associarvi automaticamente i contenuti (nella lingua originale o tradotti, se disponibili).
  8. 8. Kea s.r.l. | Via Strà, 102 | 37042 Caldiero (VR) Tel. / Fax: +39 045 6152381 Web: www.keanet.it | E-mail: info@keanet.it 8 Tassonomie: dizionari controllati, glossari, thesauri, ontologie e classificazioni gerarchiche Petra Dal Santo – KEA S.r.l. (dalsanto@keanet.it) | Settembre 2016 Indicizzazione Indicizzare significa dotare i contenuti di metadati e/o classificarli gerarchicamente. Le tassonomie possono essere usate per l’indicizzazione manuale (da parte di operatori) o automatica (da parte di software) dei contenuti: • Indicizzazione manuale o Maggiore coerenza e accuratezza o Consigliabile in presenza di contenuti variabili per tipo, formato, tema o Più tempo necessario o Possibilità di assegnazione di punteggi di rilevanza ai contenuti rispetto ai termini associati • Indicizzazione automatica o Consigliabile in presenza di  Volumi elevati di contenuti in rapido mutamento  Contenuti omogenei per tipo, formato, tema  Testi  Dati strutturati o non strutturati, ma dotati di metadati o Meno tempo necessario o L’indicizzazione automatica può basarsi su regole o su metodi statistici di machine learning o I sistemi automatici possono non sono indicizzare i contenuti in base a termini esistenti, ma anche estrarre dai contenuti insiemi di termini rilevanti in base ai quali indicizzare i contenuti L’autrice sottolinea che creare tassonomie per i sistemi di indicizzazione automatica non è sostanzialmente diverso dal crearne per l’indicizzazione manuale. È tuttavia opportuno che: • La grana dei termini sia più grossa • Siano definiti termini pre-coordinati • Il numero dei termini non-preferiti sia sensibilmente maggiore, in modo tale che il sistema automatico li possa individuare all’interno dei contenuti e indicizzarli correttamente • Sia dato un peso minore alle relazioni fra termini e alle poligerarchie. In termini generali l’indicizzazione può essere aperta (assegnazione di termini a contenuti, il che è l’argomento di questo libro) oppure chiusa (estrazione di segmenti di contenuto da un continuum, come nel caso della produzione dell’indice analitico di un libro. L’autrice non si occupa di questo tipo di indicizzazione). Autore: Petra Dal Santo – KEA S.r.l. (dalsanto@keanet.it)

×