Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Tox Framework

32 views

Published on

Project Work Master BI&BDA - Edizione 7

Published in: Data & Analytics
  • Be the first to comment

  • Be the first to like this

Tox Framework

  1. 1. TOX FRAMEWORK MASTER BUSINESS INTELLIGENCE & BIG DATA ANALYTICS Università degli Studi di Milano – Bicocca 5 Aprile 2019 Project work: Andrea Rota Fabio Mercorio Ph.D Alessandro Orro Ph.D Tutor
  2. 2. CONTESTO Dialoga con il mondo accademico, i centri di ricerca, le istituzioni e le autorità competenti in Europa e negli Stati Uniti D’America e supporta i programmi di R&D industriali per raccogliere evidenze scientifiche sulla sicurezza dei prodotti da vaping. PMI attiva a livello internazionale come partner regolatorio e scientifico per lo sviluppo del settore della sigaretta elettronica e dei relativi prodotti di consumo.
  3. 3. CONTESTO ComoONExT – Innovation Hub Lomazzo (CO) Università degli Studi di Milano - Bicocca Dipartimento di Scienze Biologiche e Biotecnologie (U3) Milano
  4. 4. CONTESTO La valutazione del rischio da esposizione a sostanze potenzialmente pericolose è un processo complesso: • Personale altamente specializzato nel trattamento di informazioni di tipo chimico, fisico e tossicologico • Banche dati e letteratura specializzata spesso frammentarie e presentazione dei dati in maniera differente (dati strutturati vs dati non strutturati) • Interpretazione e applicazione di regolamenti internazionali e nazionali OMS:‘‘Mancano studi scientifici sulla sicurezza e qualità dei liquidi da vaping’’ MA Vasta letteratura sulle proprietà tossicologiche delle singole molecole di interesse industriale
  5. 5. OBIETTIVO Fornire al team di tossicologi dell’azienda strumenti il più possibile automatizzati, con dati aggregati, per snellire il processo di selezione bibliografica e consentire una più rapida classificazione in termini di tossicità acuta e cronica di singoli elementi e miscele in forma originale e riscaldata. SPEED Produrre MONOGRAFIE TOSSICOLOGICHE che forniscano informazioni sulla valutazione dei rischi per la salute relativamente ai liquidi da vaping e alle loro emissioni dopo il processo di vaporizzazione. NICOTINE N N H Creare una banca dati centralizzata, un sistema di integrazione dei dati e relativo software TOX FRAMEWORK
  6. 6. Repository aziendale di molecole KEYWORDS TOXICOLOGY CARCIOGENIC MUTAGENIC LD50 ACUTE TOX LC50 Circa 60˙000 articoli scientifici Scraping Pandas ETL Preprocessing Stop words Stemming White spaces the cat set on Doc2Vec model D TOX FRAMEWORK Toxicol _ T. Mikolov, Q. Le - 2014 “Distributed Representations of Sentences and Documents” DESCRIZIONE DEL PROGETTO
  7. 7. DESCRIZIONE DEL PROGETTO neo4j Complessità del dataset: 12 Molecole (Arancione) 144 Articoli (Azzurro) 141 Autori (Giallo)
  8. 8. T. Mikolov et Al.- 2013 “Efficient Estimation of Word Representations in Vector Space” T. Mikolov et Al.- 2013 “Distributed Representations of Words and Phrases and their Compositionality” Key = predire le parole che si trovano nell’intorno di ciascuna parola del testo => il contesto racchiude anche il significato! Word2Vec: (word-embedding) La rappresentazione delle parole come vettori consente una più facile computazione della similarity Software package che contiene 2 modelli di rete neurale concatenati per rappresentare le parole come vettori: DESCRIZIONE DEL PROGETTO Wt-1 Wt-2 Wt+1 Wt+2 Wt Input Layer Hidden Layer Output Layer • Continous Bag of Words (CBoW): predire una parola dato il contesto • Skip-Gram: predire il contesto data una parola Input Layer Hidden Layer Output Layer Wt-1 Wt-2 Wt+1 Wt+2 Wt
  9. 9. I pesi (!) calcolati dall’HIDDEN LAYER sono usati come vettori delle parole: sono più vicini se le parole occorrono negli stessi contesti linguistici, cioè se sono riconosciute come semanticamente più simili a:b :: c:? man:woman :: king:? + woman [0,6 0,3] - man [0,2 0,2] + king [0,3 0,7] = queen [0,7 0,8] 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 man king woman queen " # # = argmax cos( !. − !0 + !2 , !4) = argmax !. − !0 + !2 6 !4 !. − !0 + !2 !47 7 DESCRIZIONE DEL PROGETTO
  10. 10. Doc2Vec: Word2Vec a cui viene aggiunto all’input un vettore specifico per ogni documento. Anche in questo caso abbiamo due reti neurali concatenate: • Distributed Bag of Words version of Paragraph Vector (PV-DBOW): predire le parole campionate casualmente dal documento ignorando le parole di contesto nell’input D Input Layer Hidden Layer Output Layer Wb Wa Wc Wd Ad ogni iterazione, viene campionata una finestra diversa di parole dalla quale se ne rimuovono alcune random. Il modello viene quindi addestrato a predire queste parole rimosse su una porzione di testo molto piccola T. Mikolov, Q. Le - 2014 “Distributed Representations of Sentences and Documents” DESCRIZIONE DEL PROGETTO Wt-1 Wt-2 Wt+1 Wt+2 Wt Input Layer Hidden Layer Output Layer D Il vettore-documento agisce come una memoria che ricorda cosa manca dal contesto considerato • Distributed Memory Model of Paragraph Vectors (PV-DM): predire una parola dato il contesto ORDINE DELLE PAROLE!!
  11. 11. RISULTATI TOX FRAMEWORK 1.0 Portale online per la ricerca di letteratura tossicologica TOX FRAMEWORK Toxicol_ Similarity Articoli 0.8 Articolo 1 0.5 Articolo 2 0.3 Articolo 3 0.1 Articolo 4
  12. 12. PROSPETTIVE FUTURE • Migliorare l’algoritmo di machine learning: • validandolo con un dataset di test verificato dagli esperti di dominio • Aumentare le dimensioni del dataset: • recuperando documentazione anche dagli altri siti del dominio tossicologico che sono risultati di più difficile accesso • perfezionando le chiavi di ricerca durante lo scraping da PubMed + Compilazione automatica delle monografie tossicologiche estraendo le informazione dal database
  13. 13. link TOX FRAMEWORK Il link è al momento inattivo perché si collega direttamente al server aziendale e non posso renderlo pubblico
  14. 14. THANK YOU MERCI DANKSCHEEN GRACIAS ARIGATO GRAZIE SPASSIBO Ευχαριστώ

×