Using machine learning to predict temporal orientation of search engines’ que...Michele Filannino
The document describes a presentation on predicting the temporal orientation of search engine queries using machine learning. It discusses running queries through various models with different feature sets to classify the queries as having past, future, recency, or atemporal intent. The minimal model using fewer features achieved 61.33% accuracy on the test data, while an intermediate model had 66.33% accuracy and a full model using more features and random forests had 55% accuracy. Further analysis found room for improvement by optimizing the feature selection.
The document summarizes the SWAP research group meeting on April 26, 2010. It outlines the SWOP semantic web service platform and the META multi-language text analyzer. SWOP allows annotating services with natural language descriptions and discovering them through UDDI. META performs analyses on multi-language texts and has a network interface, web interface, and web service interface implemented with Apache Tomcat and Axis2.
This internal presentation discusses Michele Filannino's research taster project on temporal expressions extraction. The project is part of Michele's four-year PhD through the CDT program, which includes a six-month foundation period with courses and a short taster project. Michele's taster project focuses on extracting temporal expressions from text, such as dates, times, durations, and frequencies, which can improve applications like question answering and summarization. The presentation covers challenges like the scarcity of annotated corpora, different annotation standards, and the vibrant research in extracting temporal expressions from clinical text.
Nonlinear component analysis as a kernel eigenvalue problemMichele Filannino
This presentation summarizes paper #7 titled "Nonlinear component analysis as a kernel eigenvalue problem" by Scholkopf, Smola, and Muller. It introduces Kernel Principal Component Analysis (KPCA) as an extension of PCA that maps data into a higher dimensional feature space. The presentation discusses how KPCA frames PCA as a kernel eigenvalue problem and computes principal components in this new feature space. It provides the mathematical formulation and algorithm for KPCA. The presentation also discusses applications, advantages, disadvantages, and experiments comparing KPCA to other dimensionality reduction techniques.
Il "Knowledge Graph" della Pubblica Amministrazione ItalianaGraphRM
Incontro del 15/10/2018
Un'unica strada ci porta solo a luoghi tra due località; il valore reale delle strade deriva dall'essere parte di una rete. I dati funzionano allo stesso modo: non è solo avere più dati che ne abilita il valore, ma anche collegarli tra loro” riporta l’autorità di statistica inglese.
A oggi, sempre più realtà industriali strutturano dati attraverso standard del web semantico (linked data). Basti pensare a Google e al suo “knowledge graph” largamente utilizzato e costruito sull’ontologia schema.org, conforme alla specifica JSON-LD.
E nel settore pubblico?
La presentazione mira a illustrare OntoPiA – la rete di ontologie e vocabolari controllati della pubblica amministrazione italiana. La rete fornisce gli schemi per creare e interrogare il knowledge graph della pubblica amministrazione, consentendo anche il suo collegamento nel web dei dati. Verranno presentati sia la metodologia adottata per la creazione di OntoPiA sia il processo di costruzione del knowledge graph, basato su OntoPiA, attraverso il Data & Analytics Framework (DAF) realizzato dal Team per la Trasformazione Digitale.
Speaker: Giorgia Lodi
Link video: https://youtu.be/B3dM_WMPi2Q
Using machine learning to predict temporal orientation of search engines’ que...Michele Filannino
The document describes a presentation on predicting the temporal orientation of search engine queries using machine learning. It discusses running queries through various models with different feature sets to classify the queries as having past, future, recency, or atemporal intent. The minimal model using fewer features achieved 61.33% accuracy on the test data, while an intermediate model had 66.33% accuracy and a full model using more features and random forests had 55% accuracy. Further analysis found room for improvement by optimizing the feature selection.
The document summarizes the SWAP research group meeting on April 26, 2010. It outlines the SWOP semantic web service platform and the META multi-language text analyzer. SWOP allows annotating services with natural language descriptions and discovering them through UDDI. META performs analyses on multi-language texts and has a network interface, web interface, and web service interface implemented with Apache Tomcat and Axis2.
This internal presentation discusses Michele Filannino's research taster project on temporal expressions extraction. The project is part of Michele's four-year PhD through the CDT program, which includes a six-month foundation period with courses and a short taster project. Michele's taster project focuses on extracting temporal expressions from text, such as dates, times, durations, and frequencies, which can improve applications like question answering and summarization. The presentation covers challenges like the scarcity of annotated corpora, different annotation standards, and the vibrant research in extracting temporal expressions from clinical text.
Nonlinear component analysis as a kernel eigenvalue problemMichele Filannino
This presentation summarizes paper #7 titled "Nonlinear component analysis as a kernel eigenvalue problem" by Scholkopf, Smola, and Muller. It introduces Kernel Principal Component Analysis (KPCA) as an extension of PCA that maps data into a higher dimensional feature space. The presentation discusses how KPCA frames PCA as a kernel eigenvalue problem and computes principal components in this new feature space. It provides the mathematical formulation and algorithm for KPCA. The presentation also discusses applications, advantages, disadvantages, and experiments comparing KPCA to other dimensionality reduction techniques.
Il "Knowledge Graph" della Pubblica Amministrazione ItalianaGraphRM
Incontro del 15/10/2018
Un'unica strada ci porta solo a luoghi tra due località; il valore reale delle strade deriva dall'essere parte di una rete. I dati funzionano allo stesso modo: non è solo avere più dati che ne abilita il valore, ma anche collegarli tra loro” riporta l’autorità di statistica inglese.
A oggi, sempre più realtà industriali strutturano dati attraverso standard del web semantico (linked data). Basti pensare a Google e al suo “knowledge graph” largamente utilizzato e costruito sull’ontologia schema.org, conforme alla specifica JSON-LD.
E nel settore pubblico?
La presentazione mira a illustrare OntoPiA – la rete di ontologie e vocabolari controllati della pubblica amministrazione italiana. La rete fornisce gli schemi per creare e interrogare il knowledge graph della pubblica amministrazione, consentendo anche il suo collegamento nel web dei dati. Verranno presentati sia la metodologia adottata per la creazione di OntoPiA sia il processo di costruzione del knowledge graph, basato su OntoPiA, attraverso il Data & Analytics Framework (DAF) realizzato dal Team per la Trasformazione Digitale.
Speaker: Giorgia Lodi
Link video: https://youtu.be/B3dM_WMPi2Q
Sviluppo in Java di un tool che sia di ausilio al programmatore permettendo la ricerca e l'inserimento di code pattern attraverso una specifica keyword.
Tecnologie semantiche per il knowledge Management Nicola Cerami
Una visione generale e un'analisi di una specifica applicazione: True Knowledge
(2010)
Topic: Modelli di Rappresentazione della Conoscenza (Semantic Web)
OntoPiA e il knowledge graph della pubblica amministrazione italianaGiorgia Lodi
La presentazione è stata fatta in occasione di corsi di formazione presso la rRegione Campania organizzati da ForumPA. La presentazione si suddivide in due parti principali: una descrizione estesa di OntoPiA, la rete di ontologie e vocabolari controllati della pubblica amministrazione italiana, e i suoi principi di modellazione e una descrizione del processo di produzione di Linked (Open) Data mediante lo standard R2RML
The history of OpenAccessGPT, an open-source alternative to ChatGPT that allows anyone to be in control of its own data without needing a VPN in Italy.
V. Santarelli, 30 Novembre - 1 Dicembre 2021 -
Webinar: Sistemi moderni di integrazione dei dati: l’esperienza dell’Istat e di altri attori
Titolo: L'uso delle Ontologie per la governance e la pubblicazione dei dati
Siamo un gruppo di Teoria e Tecnologia della Comunicazione dell'università Bicocca e presentiamo i seguenti motori di ricerca semantici:
Wolfram Alpha
DuckDuck Go
Free Base
Bing
DeepDyve
Sistemi per l'elaborazione delle informazioniMarco Liverani
Presentazione del corso IN530 "Sistemi per l'elaborazione delle informazioni" del prof. Marco Liverani attivato presso il Corso di Laurea in Matematica dell'Università degli Studi Roma Tre
Organizzazioni di ogni forma e dimensione producono quotidianamente un'incredibile mole di informazioni, che se adeguatamente organizzate possono essere un fattore chiave per le scelte strategiche aziendali. Tuttavia, nelle realtà aziendali il patrimonio informativo è frammentato in "Data Silos" separati e di natura eterogenea, comportando così una notevole difficoltà nella loro gestione. Nel seminario, partendo dalle esperienze maturate in ambito aziendale, verrà affrontato il tema del Knowledge Management, mostrando un approccio alla gestione interconnessa delle informazioni mediante l'uso di ontologie e tecnologie di integrazione.
FE@R2B - Workshop Public eProcurement: nuovi scenari e sviluppiEPOCA
Il progetto FE: una testimonianza di un modello open-source per gestire le fatture elettroniche rivolto alle Pubbliche Amministrazioni e agli Enti Pubblici
Ds Tech sviluppa soluzioni di Big Data e Semantic Analysis.
Abbiamo realizzato un framework innovativo che consente di integrare i dati provenienti da tutte le diverse fonti aziendali (documenti, sistemi gestionali, sistemi di archiviazione, social network, web, ecc.), individuandone correlazioni e relazioni.
Tale soluzione supporta l’azienda sia nella corretta gestione dei dati, sia nello sviluppo dei diversi processi organizzativi, ad esempio Customer Relation, individuazione di prodotti e servizi e Marke Intelligence.
Competenze per lo sviluppo software nellera del webDiego La Monica
Senza le giuste competenze è talvolta difficile produrre software per il web che riescano ad avere una resa ottimale in termini di funzionalità, user experience e performance. In questa presentazione si analizzeranno le potenziali competenze necessarie per lo sviluppo di Applicazioni per il Web e si analizzeranno alcuni strumenti software nell'ambito dell'Open Source che facilitano la separazione delle competenze, evitando quanto affermato da Albert Einstein: "La teoria è quando si sa tutto e niente funziona. La pratica è quando tutto funziona e nessuno sa il perché. In questo caso abbiamo messo insieme la teoria e la pratica: non c'è niente che funziona... e nessuno sa il perché!"
Temporal information extraction in the general and clinical domainMichele Filannino
This document summarizes a research symposium presentation on temporal information extraction. The presentation discusses extracting temporal information from text, including identifying temporal expressions like dates and durations, events, and links between them. It presents an example extraction and proposes a machine learning approach using conditional random fields. Evaluation results on benchmark tasks and potential applications in clinical narratives and predicting the temporal intent of queries are also mentioned.
More Related Content
Similar to Tecniche fuzzy per l'elaborazione del linguaggio naturale
Sviluppo in Java di un tool che sia di ausilio al programmatore permettendo la ricerca e l'inserimento di code pattern attraverso una specifica keyword.
Tecnologie semantiche per il knowledge Management Nicola Cerami
Una visione generale e un'analisi di una specifica applicazione: True Knowledge
(2010)
Topic: Modelli di Rappresentazione della Conoscenza (Semantic Web)
OntoPiA e il knowledge graph della pubblica amministrazione italianaGiorgia Lodi
La presentazione è stata fatta in occasione di corsi di formazione presso la rRegione Campania organizzati da ForumPA. La presentazione si suddivide in due parti principali: una descrizione estesa di OntoPiA, la rete di ontologie e vocabolari controllati della pubblica amministrazione italiana, e i suoi principi di modellazione e una descrizione del processo di produzione di Linked (Open) Data mediante lo standard R2RML
The history of OpenAccessGPT, an open-source alternative to ChatGPT that allows anyone to be in control of its own data without needing a VPN in Italy.
V. Santarelli, 30 Novembre - 1 Dicembre 2021 -
Webinar: Sistemi moderni di integrazione dei dati: l’esperienza dell’Istat e di altri attori
Titolo: L'uso delle Ontologie per la governance e la pubblicazione dei dati
Siamo un gruppo di Teoria e Tecnologia della Comunicazione dell'università Bicocca e presentiamo i seguenti motori di ricerca semantici:
Wolfram Alpha
DuckDuck Go
Free Base
Bing
DeepDyve
Sistemi per l'elaborazione delle informazioniMarco Liverani
Presentazione del corso IN530 "Sistemi per l'elaborazione delle informazioni" del prof. Marco Liverani attivato presso il Corso di Laurea in Matematica dell'Università degli Studi Roma Tre
Organizzazioni di ogni forma e dimensione producono quotidianamente un'incredibile mole di informazioni, che se adeguatamente organizzate possono essere un fattore chiave per le scelte strategiche aziendali. Tuttavia, nelle realtà aziendali il patrimonio informativo è frammentato in "Data Silos" separati e di natura eterogenea, comportando così una notevole difficoltà nella loro gestione. Nel seminario, partendo dalle esperienze maturate in ambito aziendale, verrà affrontato il tema del Knowledge Management, mostrando un approccio alla gestione interconnessa delle informazioni mediante l'uso di ontologie e tecnologie di integrazione.
FE@R2B - Workshop Public eProcurement: nuovi scenari e sviluppiEPOCA
Il progetto FE: una testimonianza di un modello open-source per gestire le fatture elettroniche rivolto alle Pubbliche Amministrazioni e agli Enti Pubblici
Ds Tech sviluppa soluzioni di Big Data e Semantic Analysis.
Abbiamo realizzato un framework innovativo che consente di integrare i dati provenienti da tutte le diverse fonti aziendali (documenti, sistemi gestionali, sistemi di archiviazione, social network, web, ecc.), individuandone correlazioni e relazioni.
Tale soluzione supporta l’azienda sia nella corretta gestione dei dati, sia nello sviluppo dei diversi processi organizzativi, ad esempio Customer Relation, individuazione di prodotti e servizi e Marke Intelligence.
Competenze per lo sviluppo software nellera del webDiego La Monica
Senza le giuste competenze è talvolta difficile produrre software per il web che riescano ad avere una resa ottimale in termini di funzionalità, user experience e performance. In questa presentazione si analizzeranno le potenziali competenze necessarie per lo sviluppo di Applicazioni per il Web e si analizzeranno alcuni strumenti software nell'ambito dell'Open Source che facilitano la separazione delle competenze, evitando quanto affermato da Albert Einstein: "La teoria è quando si sa tutto e niente funziona. La pratica è quando tutto funziona e nessuno sa il perché. In questo caso abbiamo messo insieme la teoria e la pratica: non c'è niente che funziona... e nessuno sa il perché!"
Similar to Tecniche fuzzy per l'elaborazione del linguaggio naturale (20)
Temporal information extraction in the general and clinical domainMichele Filannino
This document summarizes a research symposium presentation on temporal information extraction. The presentation discusses extracting temporal information from text, including identifying temporal expressions like dates and durations, events, and links between them. It presents an example extraction and proposes a machine learning approach using conditional random fields. Evaluation results on benchmark tasks and potential applications in clinical narratives and predicting the temporal intent of queries are also mentioned.
Discovery of temporal information is key for organising knowledge and therefore the task of extracting and representing temporal information from texts has received an increasing interest. In this paper we focus on the discovery of temporal footprints from encyclopaedic descriptions. Temporal footprints are time-line periods that are associated to the existence of specific concepts. Our approach relies on the extraction of date mentions and prediction of lower and upper bound- aries that define temporal footprints. We report on several experiments on persons’ pages from Wikipedia in order to illustrate the feasibility of the proposed methods.
Human brain has evolved to master, among the others, the capacity of extracting flows of events out of a speech or a written text. This temporal sense, mainly unconscious, allows us to summarise, organise, remember and combine different pieces of information working out new insights and discoveries. The temporal dimension is an inescapable and easy truth for us, but enabling machines to fully deal with time is a challenging task. Computers are still incapable of detecting temporal incompatibilities, summarising workflows or identifying causes and consequences of facts. My research wants to answer the following questions: Can computers understand time? And what possibilities will that unlock?
Temporal expressions identification in biomedical textsMichele Filannino
The document discusses Michele Filannino's final presentation on identifying temporal expressions in biomedical texts. It provides context on natural language processing and information extraction. It then defines temporal expressions and discusses their importance for tasks like question answering and summarization. The presentation outlines the forms temporal expressions can take, common annotation and normalization methods used, and gives an example. It also notes the lack of freely available corpora and describes Filannino's contributions of building the first freely available timex corpus and a temporal expression normalizer. The presentation concludes with discussing some examples of human annotation mistakes and Filannino's remaining to-do items.
Algoritmo di text-similarity per l'annotazione semantica di Web ServiceMichele Filannino
The document discusses an algorithm for measuring text similarity called SAWA. It describes how SAWA calculates word-to-word and text-to-text similarity using Wikipedia as a concept hierarchy. Experimental results showed that optimizations improved performance by 10 times while maintaining quality results. Future work includes developing web service and web interfaces and releasing the source code as open-source.
The document discusses serendipity and its applications in computer science and information filtering. It proposes an architecture for a serendipity module that uses an inverted user profile to search for less similar recommendations and promote discovery. The module would select random but poorly similar items to support, not replace, typical recommendations. Upcoming developments include analogy-based recommendations and adaptive algorithms based on user tasks.
Tecniche fuzzy per l'elaborazione del linguaggio naturale
1. Michele Filannino
Università degli Studi di Bari “A.Moro”
Dipartimento di Informatica
Research: http://www.di.uniba.it/~swap/ Working Capital - BarCamp
Twitter: @bronko85
Bari, 13 luglio 2010
2. Chi sono
Informazioni
• Età: 24 anni;
• Laureato in Informatica e tecnologie per la
produzione del software in meno di 3 anni, cum
laude;
• Laureando magistrale in Informatica;
• Membro del SWAP Research Group (Semantic
Web Access & Personalization);
• Blogger per melablog.it.
2 /15
3. Motivazioni
Quantità di dati in Internet
155 milioni di siti web
5 milioni di Tb* di dati
Un uomo impiegherebbe 57000 anni per leggerli.
1,8 miliardi di utenti (crescita esponenziale)
* Google ne ha indicizzato solo lo 0,004% ;)
Dati forniti da Eric Shmidt, CEO di Google, durante una conferenza del 2005 | Fonte: SoftPedia 3 /15
4. “It’s not information overload.
It’s filter failure”
Clay Shirky (al Web2.0 Expo del 2008)
5. Information filtering
Motori di ricerca
• non differenziano i risultati in base agli utenti;
• richiedono all’utente una parziale
conoscenza dei documenti cercati;
• offrono risultati errati o banali* poiché non
comprendono il linguaggio naturale.
* L. Iaquinta, M. de Gemmis, P. Lops, G. Semeraro, M. Filannino, and P. Molino. Introducing Serendipity in a Content-based Recommender System. In
F. Xhafa, F. Herrera, A. Abraham, M. Koppen, and J. M. Benitez, editors, Proceedings of the Eighth International Conference on Hybrid Intelligent
Systems HIS-2008 , pages 168-173. IEEE Computer Society Press, Los Alamitos, California, 2008. ISBN 978-0-7695-3326-1. 5 /15
6. Il presente
Semantica, Web3.0, etc...
• Ontologie -> Logiche descrittive;
• Realizzazione from scratch molto onerosa;
• Utilizzo limitato a domini molto
specifici;
• bassa precisione, risultati poco
pertinenti, complessità computazionale
elevata.
6 /15
7. “Nella misura in cui le leggi della matematica si riferiscono alla realtà non sono certe.
E nella misura in cui sono certe, non si riferiscono alla realtà.”
Albert Einstein
8. Idea
!
• Utilizzare logica fuzzy per restituire
risultati più intelligenti.
• Ridimensionare l’uso di algoritmi basati su
logica classica;
• Rifiutare di formalizzare i meccanismi sottesi al
linguaggio naturale umano;
8 /15
9. Logica fuzzy
Lotfi Zadeh, 1965*
• Logica del ragionamento
approssimato;
• Esprime incertezza;
• Estende la classica teoria
degli insiemi;
• Consente di profilare le
interpretazioni degli utenti.
• Fuzzy-relazioni tra concetti
ontologici
L. A. Zadeh. Fuzzy sets. Information and Control, 8(3):338–353, June 1965
9 /15
10. Il sistema software
Capacità
• Interpreterà il linguaggio
naturale (italiano ed inglese);
• Eliciterà i concetti
ontologici presenti nel
testo;
• Sarà facilmente integrabile in
sistemi terzi.
10 /15
11. Funzionamento
Input, output
INPUT OUTPUT
Concetti ontologici
Testo semplice pertinenti (anche nascosti)
Concetti ontologici
Pagina social network significativi per il profilo
Concetti ontologici correlati
Pagina web (anche nascosti)
11 /15
12. Scenario applicativo
Integrazione in un motore di ricerca classico
Query
arricchita
Query Query
Motore di
Utente ricerca
<<
Documenti pertinenti Documenti restituiti
restituiti da un sistema classico
12 /15
13. Scenario applicativo
Integrazione in un sistema di raccomandazioni
Concetti
pertinenti
Profilo,
Sistema di Posizione
Utente raccomandazioni geografica,
Data
Prodotti/servizi pertinenti
restituiti
13 /15
14. Progetti
In corso...
• Studio sui concetti di gradualità e vaghezza
nella ingegneria della conoscenza;
• Membro del progetto SWOP (Semantic
Web-service Opened Platform);
• Realizzazione di un algoritmo per il calcolo
della similarità semantica tra frasi (SAWA);
• Sogno di diventare un ricercatore.
14 /15
Conosco la definizione di un concetto ma non come si chiama. In tal caso Google non mi serve a niente.
Il problema &#xE8; nella teoria degli insiemi classica. La volont&#xE0; tacita di assiomatizzare realt&#xE0; delle quali ancora non conosciamo tutta la complessit&#xE0;.