Ministero Difesa Sfruttamento Risorse Informative Online 15062005

1,488 views

Published on

Online information resources: classification and business cases

Published in: Business
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,488
On SlideShare
0
From Embeds
0
Number of Embeds
29
Actions
Shares
0
Downloads
0
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide
  • Ministero Difesa Sfruttamento Risorse Informative Online 15062005

    1. 1. Sfruttamento delle risorse on-line Claudio Foglini
    2. 2. Agenda <ul><li>Qualità, aggiornamento, accuratezza contro quantità, varietà, indipendenza </li></ul><ul><li>La complementarità delle fonti aperte con le fonti proprietarie ed a valore aggiunto.L’importanza della scelta delle fonti nella presa di decisioni critiche </li></ul><ul><li>Criteri nell’adozione di una fonte elettronica </li></ul>Definizione e tipologia di Contenuto (elettronico) Breve analisi del mercato dell’informazione on-line attraverso i fornitori di informazione generica, business information e informazione tecnico-scientifica (e i loro controllanti) Knowledge management: ovvero il contenuto vale quanto il sistema con il quale é distribuito Introduzione alla costruzione di un sistema informativo. Obiettivi e modelli di gestione delle informazioni di 3 tipi di grandi organizzazioni: industria farmaceutica,agenzia governativa, multinazionale
    3. 3. Il vecchio ed il nuovo <ul><li>L’Information overload: un problema ……. </li></ul>L’information overload: un problema…nuovo? …… mieux vaut une tête bien faite, qu’une bien pleine … François Rabelais
    4. 4. Dilemma della ricerca risultato Bassa produttività Frustrazione Poco valore aggiunto alle informazioni a disposizione Mancanza di tempo-bisogno di allerte contenuto multilingue Più volume significa più rumore Più sono preciso, e più informazione perdo Troppi links morti Incompetenza nel cercare Non so COSA sto cercando
    5. 5. Qualità, aggiornamento, accuratezza contro quantità, varietà, indipendenza <ul><li>La complementarità delle fonti aperte con le fonti proprietarie ed a valore aggiunto. </li></ul><ul><li>L’importanza della scelta delle fonti nella presa di decisioni critiche </li></ul><ul><li>Criteri nell’adozione di una fonte elettronica </li></ul>
    6. 8. Informazione e tempo Agire Decidere TEM PO Agire Decidere Analizzare Trovare/scoprire identificare Accelerare il ciclo decisionale decisione Decisioni migliori, più in fretta Analizzare Cercare identificare decisione
    7. 9. Moltiplicazione delle fonti
    8. 10. Moltiplicazione di contenuti <ul><li>2 modalità principali di generazione dei contenuti </li></ul><ul><li>Contenuto « riciclato » contenuto « nuovo » </li></ul><ul><li>Altrimenti disponibile in cartaceo esistente solo in elettronico </li></ul>Digitalizzazione Aumento fonti disponibili Nuove fonti Fonti aperte Organizzazione problemi Qualità Distribuzione Analisi dei dati
    9. 11. Tipologia di contenuti <ul><li>3 macro-categorie </li></ul><ul><li>Fonti « aperte » - web pubblico </li></ul><ul><li>Fonti a pagamento </li></ul><ul><li>Fonti a valore aggiunto </li></ul>Fonti « chiuse »
    10. 12. Fonti « aperte » - web pubblico <ul><li>Siti generici, societari, personali, etc. </li></ul><ul><li>Ricerche non aggregate </li></ul><ul><li>Nessun archivio </li></ul>
    11. 13. Quantità Varietà Indipendenza
    12. 14. Questionario <ul><li>Quali sono i criteri di misura della rilevanza dei sistemi di ricerca? </li></ul><ul><li>Quale di questi NON é un motore di ricerca : Wisenut ? Vivissimo ? silverFinder ? </li></ul><ul><li>Google si basa sulla rilevanza: vero o falso ? </li></ul><ul><li>I motori di ricerca non usano un indice : vero o falso ? </li></ul><ul><li>Nominare 3 motori di ricerca di prima generazione ( 1995-2000) </li></ul><ul><li>Nominare 3 provider di servizi di ricerca alle imprese ? </li></ul><ul><li>Chi sono Larry Page and Sergey Brin ? </li></ul>
    13. 15. Come funziona un motore di ricerca? <ul><li>Un motore di ricerca é uno strumento che raccoglie ed organizza informazioni su internet o databases </li></ul><ul><li>3 componenti principali </li></ul><ul><li>1- Search box </li></ul><ul><li>2- Un database (non visibile) contente l’indice del contenuto </li></ul><ul><li>3-Un robot (deto anche spider / worm / crawler) che percorre siti e contenuto </li></ul>
    14. 16. Come funziona <ul><li>I motori di ricerca compiono 3 operazioni : </li></ul><ul><li>Utilizzano parole chiave per individuare o circoscrivere contenuto in internet </li></ul><ul><li>Mantengono un indice delle parole trovate, e del luogo in cui l’anno trovato </li></ul><ul><li>Permettono all’utente di cercare parole o combinazioni di parole all’interno di quest’indice </li></ul>
    15. 18. Sembra facile… <ul><li>Indice aggiornato </li></ul><ul><ul><li>Cercare dati </li></ul></ul><ul><ul><li>Aprire e legger ciascu file </li></ul></ul><ul><ul><li>Salvare ogni parola in un indice consultabile </li></ul></ul><ul><li>Sistemi di ricerca </li></ul><ul><ul><li>Far corrispondere la ricerca ai termini dell’indice </li></ul></ul><ul><ul><li>Ordinare I documenti per rilevanza </li></ul></ul><ul><li>Visualizzazione dei risultati </li></ul>
    16. 19. Esempio <ul><li>Occhio umano </li></ul>
    17. 20. Occhio di un crawler (robot) <ul><li>HTML Code </li></ul><ul><li><html><head> <TITLE>Great Hair Website</TITLE> </li></ul><ul><li><style type=&quot;text/css&quot;> P,H1,H2,UL,LI { font-family : arial,; color : #663399 } </li></ul><ul><li>P,UL {font-size : large} </STYLE> </head> </li></ul><ul><li><body BGCOLOR=&quot;white&quot;><p> </li></ul><ul><li><IMG SRC=&quot;top1.gif&quot; ALT=&quot;webad&quot;> </li></ul><ul><li>Home - <A HREF=&quot;bestore.html&quot;>Buy Stuff</A> - </li></ul><ul><li><A HREF=&quot;read.pdf&quot;>About Us</A> - </li></ul><ul><li><A HREF=&quot;pr.doc&quot;>Press</A> </li></ul><ul><li><!-- Site by JQ Design, what fun! --> </li></ul><ul><li><H1>News</H1><P> </li></ul><ul><li>April 1, 2001: We're dead! Robo-Hair.com is now selling off all . . . </body> </html> </li></ul>
    18. 21. Doc ID, Position ID, Word Doc ID, Position ID, Word <ul><li>rh765 1 home </li></ul><ul><li>rh765 2 buy </li></ul><ul><li>rh765 3 stuff </li></ul><ul><li>rh765 4 about </li></ul><ul><li>rh765 5 us </li></ul><ul><li>rh765 6 press </li></ul><ul><li>rh765 7 news </li></ul><ul><li>rh765 8 april </li></ul><ul><li>rh765 9 1 </li></ul><ul><li>rh765 10 2001 </li></ul><ul><li>rh765 11 we </li></ul><ul><li>rh765 12 re </li></ul><ul><li>rh765 13 dead </li></ul><ul><li>rh765 14 robo </li></ul><ul><li>rh765 15 hair </li></ul><ul><li>rh765 16 com </li></ul><ul><li>rh765 17 is </li></ul><ul><li>rh765 18 now </li></ul><ul><li>rh765 19 selling </li></ul><ul><li>rh765 20 off </li></ul><ul><li>rh765 21 all </li></ul><ul><li>rh765 22 of </li></ul><ul><li>rh765 ti1 great </li></ul><ul><li>rh765 ti2 hair </li></ul><ul><li>rh765 ti3 website </li></ul><ul><li>rh765 alt1 webad </li></ul><ul><li>rh765 url1 www </li></ul><ul><li>rh765 url2 roboprod </li></ul><ul><li>rh765 url3 com </li></ul><ul><li>rh765 url4 hair </li></ul><ul><li>rh765 lnk1 bestore </li></ul>Esempio di indice
    19. 22. Alcune tecnologie di ricerca <ul><li>Algoritmi Soundex : le parole vengono tutte ridotte ad una “radice sonora” </li></ul><ul><li>Esempio : Licence, License = soundex L252 </li></ul><ul><li>Algoritmi radice : le parole vengono tutte ridotte alla comune radice semantica </li></ul><ul><li>Esempio : computer, computing, computerization </li></ul>
    20. 23. Alcune tecnologie di ricerca <ul><li>Sintassi : Sinonimi , Dizionario & controllo ortografico : </li></ul><ul><li>Esempio: rapporto significa anche cercare “analisi”, “Opinione”, “Profilo” </li></ul><ul><li>Statistica : Numero di parole, prossimità, parole nei titoli, URL, ordine delle parole </li></ul><ul><li>Esempio: Un documento dal titolo “il cane di Claudio” é più pertinente di un testo che termnina con “ […] probabilemente Claudio comprerà un cano l’anno prossimo” </li></ul><ul><li>Semantico : Misura del “peso” di alcune parole </li></ul><ul><li>Esempio : “Claudio ha un cane” ha più peso di “ Claudio possiede un mammifero” </li></ul>
    21. 24. Precision & Recall <ul><li>Precision : rapporto tra risultati trovati e la somma di tutti i risultati (rilevanti e non rilevanti). </li></ul><ul><li>Si puo tradurre come il numero di termini tassonomici (indici) associati correttamente contro quelli errati. </li></ul><ul><li>Recall rapporto tra risultati rilevanti trovati i il totale dei risultati rilevanti nel database </li></ul><ul><li>Si puo tradurre come misura dei termini tassonomici applicati correttamente contro quelli che mancano in articoli pertinenti. </li></ul>
    22. 25. Limiti <ul><li>Motori di Ricerca hanno risultati in termini di precision & recall inferiori al 50 % </li></ul><ul><li>(aggregatore arriva a 89/85 %) </li></ul><ul><li>La maggior parte dei motori non indicizza documenti in full-text </li></ul><ul><li>(101Ko for google,) </li></ul><ul><li>Volatilità: 40% del web cambia ogni mese (Sindrome dell’articolo scomparso) </li></ul>
    23. 26. <ul><li>Dati non strutturati e ridondanti: 30% delle pagine web sono quasi-duplicate </li></ul><ul><li>Pagine web dinamiche: il web invisibile </li></ul><ul><li>Vincoli commerciali, Autorevolezza delle fonti </li></ul><ul><li>Testi non strutturati : Si tratta di un nome? Di un luogo ? Di una data di nascita ? </li></ul><ul><li>Ricerche multilingua </li></ul>Limiti
    24. 27. Limiti dei motori di ricerca <ul><li>Informazioni in database </li></ul><ul><li>Contenuto Audio / Video </li></ul><ul><li>Formati non supportati (FLASH) </li></ul><ul><li>Informazioni disponibili con registrazione </li></ul><ul><li>Contenuto aggiornato </li></ul><ul><li>Pagine senza links </li></ul><ul><li>Pagine generate dinamicamente </li></ul>
    25. 28. Volatilità ©Search engine showdown –May 2003 4 months 170 days 116 days Teoma 1 month 165 days 2 days Google 1 month 599 days 1 day AlltheWeb 3 months 108 days current day AltaVista 4 weeks 51 days 1 day HotBot (Ink.) 4 weeks 51 days 1 day MSN (Inktomi) Mostly Oldest Newest Engine
    26. 29. Il Futuro <ul><li>Verticalizzazione : </li></ul><ul><li>Task specific (call centers, compliance) document specific (video, audio) o language specific </li></ul><ul><li>NLP Natural language processing : Dove dormo domani sera a Milano ? Chi sono i miei concorrenti in Spagna ? </li></ul><ul><li>Desktop search : Google Desktop </li></ul><ul><li>Visualizzazione & interfaccia </li></ul><ul><li>Text mining </li></ul>
    27. 30. Gartner prediction - <ul><li>« No search vendor is sure to remain independant for more than three years; search technology may be replaced with relative ease; and the benefits to be gained by a more visionary vendor are often sufficiently substantial to justify any loss in stability » </li></ul><ul><li>Nikos Drakos – Gartner Analyst – Cannes. November 2004 </li></ul>
    28. 31. Final quiz <ul><li>1- What is the name of the search engine algorythm that reduces a word to its basic root ? </li></ul><ul><li>2- What proportion of web pages are « near duplicates » ? </li></ul><ul><li>3- What proportion of the web changes every month ? </li></ul><ul><li>4- Name three things search engine currently can’t do ? </li></ul><ul><li>5- What is the name of the Index built by search engines with statistical weighting on words ? </li></ul>
    29. 32. Parla l’esperto <ul><li>&quot;Tutti I problemi odierni rispetto all araccolta di informazioni saranno 10 o 100 volte più grandi nei prossimi 5 / 10 anni”. </li></ul><ul><li>Google possiede tutta l’informazione disponibile sul web? </li></ul><ul><li>“ Certamente no. Molta informazione semplicemente non é accessibile o non disponibile sul web”. </li></ul>Eric Schmidt. Google CEO
    30. 33. Conclusione <ul><li>Il valore legato al contenuto sarà sempre più funzione del modo di organizzarlo, distribuirlo e soprattutto </li></ul>ANALIZZARLO
    31. 34. Fonti a pagamento <ul><li>Informazioni selezionate </li></ul><ul><li>Alto valore </li></ul><ul><li>Materiale preformattato </li></ul><ul><li>Cadenza distribuzione regolare </li></ul><ul><li>Ricerche rudimentali </li></ul><ul><li>Archivio limitato </li></ul>
    32. 35. Fonti a valore aggiunto <ul><li>Ricerca simultanea su migliaia di fonti </li></ul><ul><li>Contenuto gestibile elettronicamente </li></ul><ul><li>Allerte automatiche </li></ul>
    33. 36. Definizione e tipologia di Contenuto (elettronico) Business information Company information Scientific/technical/medical information Factiva, Lexis Nexis, Dialog Dun&Bradstreet, Experian, Thomson Finan., Bureau Van Diik Elsevier, Springer, Thomson, Wiley
    34. 37. Fonti a valore aggiunto Aggregatori <ul><li>Acquisiscono contenuto </li></ul><ul><li>Normalizzano «  </li></ul><ul><li>Categorizzano «  </li></ul><ul><li>Automatizzano «  </li></ul><ul><li>Integrano «  </li></ul>
    35. 38. Qualità Aggiornamento Accuratezza
    36. 40. Fonti sempre meno « aperte » <ul><li>Commoditizzazione dei contenuti </li></ul><ul><li>Sviluppo degli accessi limitati </li></ul><ul><li>Contrazione delle entrate pubblicitarie </li></ul><ul><li>Consolidamento dell’offerta (riduzione numero aggregatori/fonti) </li></ul><ul><li>Crescita bassa </li></ul>
    37. 41. Orientamento Opinion leaders Giornalisti Esperti/consulenti Opinione pubblica Motori di ricerca Aggregatori Categorizzatori
    38. 42. Trends - Information Professionals <ul><li>Internet sovraccarica gli utenti con informazioni </li></ul><ul><li>Ricerca > organizzazione di contenuti </li></ul><ul><li>Aumento della velocità di ricerca </li></ul><ul><li>Le fonti aperte sono indispensabili </li></ul><ul><li>Le fonti aperte sono popolari </li></ul><ul><li>Troppo tempo speso sulle fonti aperte </li></ul>
    39. 43. <ul><li>Dominio della lingua inglese </li></ul><ul><li>Problemi Accuratezza - tempestività </li></ul><ul><li>Google prima ricerca </li></ul><ul><li>Supporti cartacei </li></ul><ul><ul><li>Elaborazione e distribuzione di contenuto </li></ul></ul><ul><ul><li>Grafici, foto, documenti legali </li></ul></ul>
    40. 44. <ul><li>Database providers </li></ul><ul><ul><li>Servizi globali come complemento ai servizi locali </li></ul></ul><ul><ul><li>Uniformità dell’offerta </li></ul></ul><ul><ul><li>Disponibilità fonti in lingua locale </li></ul></ul>Trends - Information Professionals
    41. 45. Trends - Information Professionals <ul><li>Trends </li></ul><ul><ul><li>Intranet / Portale </li></ul></ul><ul><ul><li>Trainings </li></ul></ul><ul><ul><li>Centralizzazione acquisti contenuto </li></ul></ul>
    42. 46. Key points <ul><li>Troppa informazione </li></ul><ul><li>Filtrare - organizzare </li></ul><ul><li>Google é il primo luogo di ricerca </li></ul>
    43. 47. Criteri di scelta <ul><li>Copertura locale essenziale </li></ul><ul><li>Possibilità di stampare </li></ul><ul><li>Possibilità di ricerche incrociate </li></ul><ul><li>Affidabilità / Obiettività </li></ul><ul><li>Copertura linguistica </li></ul>
    44. 48. Aderenza al mercato International Content Local Content Local Language Market Content Indexing Local Account Mgmt. Technology Service Integration Personalisation Reliability Consistency Integrity (full text) Customer Service Dependability Consultancy
    45. 49. Knowledge management: ovvero il contenuto vale quanto il sistema con il quale é distribuito <ul><li>Introduzione alla costruzione di un sistema informativo. </li></ul><ul><li>Obiettivi e modelli di gestione delle informazioni di 3 tipi di grandi organizzazioni: industria </li></ul><ul><li>farmaceutica,agenzia governativa, multinazionale </li></ul>
    46. 50. Approach Technology Content & Taxonomy People & Process
    47. 51. Matrice organizzativa Executive Management SFA CRM Contract Mgmt HR Mgmt Back Office, A/P Supplier Mgmt ERP Enterprise Mgmt Service Mgmt Portal Information Services Enterprise Productivity Microsoft Office…Portal…Intranet…Proprietary Systems Sales Marketing Legal HR Finance Operations IT R&D Information Pro. “ Most business professionals spend more than 2 hours per day searching for information.” (Source: Delphi Group) “ At least 50% of searches are unsuccessful.” (Source: IDC) “ 70% of business professionals have difficulty finding information” (Source: Delphi) “ 75% of executives think information is important, but 60% think their employees are not finding the right information.” (Source: IDC) Portal, Email
    48. 52. Informazione e organizzazione <ul><li>Farmaceutica: </li></ul><ul><li>Affinità con ricerca e organizzazione di contenuti </li></ul><ul><li>Mondo proprio delle tassonomie </li></ul><ul><li>Bisogno di accuratezza </li></ul>
    49. 53. Farmaceutica
    50. 54. Taxonomy Definitions & Goals <ul><li>Taxonomies support information </li></ul><ul><li>management requirements by enabling: </li></ul><ul><li>End users to discover and access information </li></ul><ul><li>Content managers or specialists to organize their information assets </li></ul><ul><li>Taxonomy designers to fulfill the needs of end users and content managers </li></ul><ul><li>= ORGANISATIONS, TO SOLVE A BUSINESS PROBLEM! </li></ul>
    51. 55. Contenuto e contesto <ul><li>Rimuovere l’ambiguità </li></ul><ul><li>Suggerire contenuti ignoti </li></ul><ul><li>Standardizzare la terminologia </li></ul><ul><li>Ricerche multilingua </li></ul><ul><li>Costruire una piattaforma di contenuti e permettere accesso ai dati ad una comunità di utenti </li></ul><ul><li>Utilizzare la piattaforma per analisi approfondite </li></ul>
    52. 56. The Factiva Corporate Taxonomy Factiva Taxonomy 320,000+ companies 820+ industries 520+ news subjects 340+ regions 22 languages
    53. 59. Multinazionale <ul><li>Efficienza </li></ul><ul><ul><li>Integrazione nei sistemi esistenti (workflow) </li></ul></ul><ul><li>Aggiornamento </li></ul><ul><li>Autorevolezza </li></ul><ul><ul><li>Utilizzo di fonti « chiuse » </li></ul></ul>
    54. 60. Agenzia governativa <ul><li>Costituzione di un nucleo di analisti </li></ul><ul><ul><li>Funzioni specializzate </li></ul></ul><ul><li>Completezza </li></ul><ul><ul><li>Integrazione di fonti aperte e chiuse </li></ul></ul><ul><li>Capillarità </li></ul><ul><ul><li>Identificazione dell’intranet come veicolo </li></ul></ul>
    55. 61. Trends: Intranet & Integration <ul><li>Disponibilità maggiore di intranets / portali </li></ul><ul><li>Rare implementazioni di ricerche integrate su contenuti interni ed esterni </li></ul>
    56. 62. Il futuro <ul><li>http://www.lightover.com/epic/ols-master.html </li></ul>

    ×