Applicazioni di chatGPT e altri LLMs per la
ricerca di farmaci
Giovanni M Dall’Olio
https://www.facebook.com/fondabr
uzzoscienzevita
Tre applicazioni di chatGPT e altri LLMs per la ricerca di farmaci
Assistente per i ricercatori: riassume articoli
scientifici e genera codice per analisi dati.
Agenti virtuali: simula team collaborativi per
progettare nuovi farmaci.
Modelli biologici avanzati: adatta la struttura
del transformer al linguaggio del DNA.
Cosa e’ chatGPT e cosa sono i modelli di linguaggio a larga scala
(LLMs)
Come funzionano i modelli LLMs?
Input: grandi quantità di
testo (e.g., Internet)
Embedding: ogni parola
viene associata ad una
serie di numeri
Positional Embedding:
la posizione di ogni
parola viene codificata
Attention: relazione tra
ogni coppia di parole
viene codificata (e.g.
aggettivi, etc.)
Cross-Attention:
concetti più astratti
Output: predizione della
parola successivi (auto-
complete)
Tre applicazioni di chatGPT e altri LLMs per la ricerca di farmaci
Assistente per i ricercatori: riassume articoli
scientifici e genera codice per analisi dati.
Agenti virtuali: simula team collaborativi per
progettare nuovi farmaci.
Modelli biologici avanzati: adatta la struttura
del transformer al linguaggio del DNA.
LLMs come assistenti per la ricerca
- Riassunti rapidi: Riassumere articoli
scientifici complessi, rendendo più
veloce la consultazione della
letteratura.
- Generazione di codice: Creare script
per analizzare dati biologici e chimici.
- Suggerimenti intelligenti: Proporre
ipotesi, target molecolari e strategie di
ricerca.
chatGPT e’ capace di passare l’esame di abilitazione medica
- I primi modelli di chatGPT e altre LLMs
erano poco affidabili per interpretare
informazioni mediche, per via delle
allucinazioni
- Nei modelli piu’ recenti, questo
problema e’ stato migliorato
- Le versioni piu’ recenti sono capaci di
passare l’esame di abilitazione alla
professione medica
Can ChatGPT-4o really pass medical science exams? A pragmatic analysis using
novel questions
Med-PaLM 2: modello biomedico di google
Generazione di codice con chatGPT / LLMs
Generazione di riassunti di articoli scientifici
Cosa serve per customizzare un chatbot per la ricerca?
- Capacità di accedere a dati che non erano presenti durante il training
- Retrieval Augmentation Systems (RAGs)
- Fine Tuning
- Riduzione di allucinazioni
- Grounding: le risposte vengono controllate da un altro LLM o modello, prima di essere
presentate all’utente
- Sicurezza
- Guardrail: metodi per fare in modo che il chatbot rispetti privacy ed informazioni confidenziali
JulesOS (GSK)
Tre applicazioni di chatGPT e altri LLMs per la ricerca di farmaci
Assistente per i ricercatori: riassume articoli
scientifici e genera codice per analisi dati.
Agenti virtuali: simula team collaborativi per
progettare nuovi farmaci.
Modelli biologici avanzati: adatta la struttura
del transformer al linguaggio del DNA.
Agenti LLMs
- Nel 2024 si e’ diffuso il concetto
di “agenti LLMs”
- Si tratta di bots basati su LLMs,
capaci di scrivere ed eseguire
codice, cercare su Internet,
etc..
- Spesso questi bots sono
utilizzati in gruppi, in cui ogni
bot ha un ruolo specifico (e.g.
manager, programmatore,
segretario, etc..)
Lab Virtuale per identificare anticorpi contro SARS-CoV-2
Ricercatori
dell’universita’ di
Stanford hanno
creato un gruppo di
5 “ricercatori virtuali”
Questi ricercatori
sono stati capaci di
disegnare due
anticorpi nuovi per il
virus del COVID.
https://www.biorxiv.org/content/10.1101/2024.11.11.623004v1
InSilico: PreciousGPT 3
L’impresa InSilico ha sviluppato un intero sistema di
ricerca utilizzando agenti, incluso:
- Un esperto di dati
- Un ricercatore, capace di “pensare” ipotesi
nuove
- Un tecnico di laboratorio, con accesso a lab
robotizzato
- Uno scienziato, capace di riassumere i risultati
Questo sistema e’ stato capace di identificare 8 nuovi
candidati senolitici
La stessa impresa e’ riuscita ad arrivare ad uno
studio clinico per Idiopathic pulmonary fibrosis (IPF)
in soli 18 mesi
Tre applicazioni di chatGPT e altri LLMs per la ricerca di farmaci
Assistente per i ricercatori: riassume articoli
scientifici e genera codice per analisi dati.
Agenti virtuali: simula team collaborativi per
progettare nuovi farmaci.
Modelli biologici avanzati: adatta la struttura
del transformer al linguaggio del DNA.
Cosa rende i LLMs speciali, rispetto ad altri modelli?
- Grandi quantità di dati utilizzati per il training
- Conversazioni, siti internet, etc..
- Per la biologia, si possono utilizzare i grandi dataset da consorzi, e.g. Cell Atlas
- Allenati per prevedere la parola successiva di una frase (auto-complete)
- Tecnica efficiente per il linguaggio naturale
- In biologia molte cose non sono sequenziali, ma si possono fare aggiustamenti
- Embedding
- Ogni parola viene associata ad una serie di numeri
- Questi numeri possono essere rappresentati in un “vector space”
- Attention mechanism
- Permette di capire il contesto di ogni parola. E.g. aggettivi e nomi
- In Biologia, il contesto potrebbe essere la funzione di una sequenza di DNA, di un gene, etc..
Vector Space
https://codelabs.milvus.io/vector-database-101-introduction-to-unstructured-
data/index#0
Self-Attention
Il meccanismo del self-attention
permette al modello di imparare la
relazione tra ogni coppia di parole
nell’input
E.g. aggettivi, sinonimi, parole nel
contesto
Un altro meccanismo, chiamato
cross-attention, permette al
modello di capire concetti piu’
astratti
https://www.comet.com/site/blog/ex
plainable-ai-for-transformers/
Modelli Fondamentali in Bioinformatica
https://arxiv.org/abs/2402.04286
Modelli Fondamentali
- Un modello fondamentale puo’ essere
allenato per generare sequenze
sintetiche (DNA, geni, etc..)
- Questo permette al modello di
imparare “il linguaggio” biologico,
usando attenzione ed embeddings
- E.g. sequenze codificanti, fattori di
trascrizione, etc..
- Cambiando lo strato finale (fine-
tuning), il modello puo’ imparare a
fare altri tipi di predizione
- E.g. diagnosticare una malattia
https://arxiv.org/abs/2402.04286
scGPT
- Architettura Transformer
applicata ai dati di
single-cell sequencing
- Permette di identificare
cell types, errori di batch,
reti di geni, predizione di
KO
https://www.nature.com/articles/s41592-024-02201-0
CpGPT (metilazione)
Modello basato su metilazione
- Può essere utilizzato per generare
arrays di metilazione
- Imputazione di dati mancanti
- Aggiornare Arrays basati su tecnologie
vecchie (e.g. 27K CpGs)
- Identificare regioni codificanti
- Con il fine-tuning, il modello puo’
imparare:
- A predire l’eta’ biologica di un paziente
- Identificare tipi di cellule
- Diagnosticare malattie
https://www.biorxiv.org/content/biorxiv/early/2
024/10/29/2024.10.24.619766.full.pdf
Tre applicazioni di chatGPT e altri LLMs per la ricerca di farmaci
Assistente per i ricercatori: riassume articoli
scientifici e genera codice per analisi dati.
Agenti virtuali: simula team collaborativi per
progettare nuovi farmaci.
Modelli biologici avanzati: adatta la struttura
del transformer al linguaggio del DNA.
https://arxiv.org/abs/1706.03762
Grazie per l’attenzione!

Applicazioni di chatGPT e altri LLMs per la ricerca di farmaci

  • 1.
    Applicazioni di chatGPTe altri LLMs per la ricerca di farmaci Giovanni M Dall’Olio https://www.facebook.com/fondabr uzzoscienzevita
  • 2.
    Tre applicazioni dichatGPT e altri LLMs per la ricerca di farmaci Assistente per i ricercatori: riassume articoli scientifici e genera codice per analisi dati. Agenti virtuali: simula team collaborativi per progettare nuovi farmaci. Modelli biologici avanzati: adatta la struttura del transformer al linguaggio del DNA.
  • 3.
    Cosa e’ chatGPTe cosa sono i modelli di linguaggio a larga scala (LLMs)
  • 6.
    Come funzionano imodelli LLMs? Input: grandi quantità di testo (e.g., Internet) Embedding: ogni parola viene associata ad una serie di numeri Positional Embedding: la posizione di ogni parola viene codificata Attention: relazione tra ogni coppia di parole viene codificata (e.g. aggettivi, etc.) Cross-Attention: concetti più astratti Output: predizione della parola successivi (auto- complete)
  • 7.
    Tre applicazioni dichatGPT e altri LLMs per la ricerca di farmaci Assistente per i ricercatori: riassume articoli scientifici e genera codice per analisi dati. Agenti virtuali: simula team collaborativi per progettare nuovi farmaci. Modelli biologici avanzati: adatta la struttura del transformer al linguaggio del DNA.
  • 8.
    LLMs come assistentiper la ricerca - Riassunti rapidi: Riassumere articoli scientifici complessi, rendendo più veloce la consultazione della letteratura. - Generazione di codice: Creare script per analizzare dati biologici e chimici. - Suggerimenti intelligenti: Proporre ipotesi, target molecolari e strategie di ricerca.
  • 9.
    chatGPT e’ capacedi passare l’esame di abilitazione medica - I primi modelli di chatGPT e altre LLMs erano poco affidabili per interpretare informazioni mediche, per via delle allucinazioni - Nei modelli piu’ recenti, questo problema e’ stato migliorato - Le versioni piu’ recenti sono capaci di passare l’esame di abilitazione alla professione medica Can ChatGPT-4o really pass medical science exams? A pragmatic analysis using novel questions
  • 10.
    Med-PaLM 2: modellobiomedico di google
  • 11.
    Generazione di codicecon chatGPT / LLMs
  • 12.
    Generazione di riassuntidi articoli scientifici
  • 13.
    Cosa serve percustomizzare un chatbot per la ricerca? - Capacità di accedere a dati che non erano presenti durante il training - Retrieval Augmentation Systems (RAGs) - Fine Tuning - Riduzione di allucinazioni - Grounding: le risposte vengono controllate da un altro LLM o modello, prima di essere presentate all’utente - Sicurezza - Guardrail: metodi per fare in modo che il chatbot rispetti privacy ed informazioni confidenziali
  • 14.
  • 15.
    Tre applicazioni dichatGPT e altri LLMs per la ricerca di farmaci Assistente per i ricercatori: riassume articoli scientifici e genera codice per analisi dati. Agenti virtuali: simula team collaborativi per progettare nuovi farmaci. Modelli biologici avanzati: adatta la struttura del transformer al linguaggio del DNA.
  • 16.
    Agenti LLMs - Nel2024 si e’ diffuso il concetto di “agenti LLMs” - Si tratta di bots basati su LLMs, capaci di scrivere ed eseguire codice, cercare su Internet, etc.. - Spesso questi bots sono utilizzati in gruppi, in cui ogni bot ha un ruolo specifico (e.g. manager, programmatore, segretario, etc..)
  • 17.
    Lab Virtuale peridentificare anticorpi contro SARS-CoV-2 Ricercatori dell’universita’ di Stanford hanno creato un gruppo di 5 “ricercatori virtuali” Questi ricercatori sono stati capaci di disegnare due anticorpi nuovi per il virus del COVID. https://www.biorxiv.org/content/10.1101/2024.11.11.623004v1
  • 18.
    InSilico: PreciousGPT 3 L’impresaInSilico ha sviluppato un intero sistema di ricerca utilizzando agenti, incluso: - Un esperto di dati - Un ricercatore, capace di “pensare” ipotesi nuove - Un tecnico di laboratorio, con accesso a lab robotizzato - Uno scienziato, capace di riassumere i risultati Questo sistema e’ stato capace di identificare 8 nuovi candidati senolitici La stessa impresa e’ riuscita ad arrivare ad uno studio clinico per Idiopathic pulmonary fibrosis (IPF) in soli 18 mesi
  • 19.
    Tre applicazioni dichatGPT e altri LLMs per la ricerca di farmaci Assistente per i ricercatori: riassume articoli scientifici e genera codice per analisi dati. Agenti virtuali: simula team collaborativi per progettare nuovi farmaci. Modelli biologici avanzati: adatta la struttura del transformer al linguaggio del DNA.
  • 20.
    Cosa rende iLLMs speciali, rispetto ad altri modelli? - Grandi quantità di dati utilizzati per il training - Conversazioni, siti internet, etc.. - Per la biologia, si possono utilizzare i grandi dataset da consorzi, e.g. Cell Atlas - Allenati per prevedere la parola successiva di una frase (auto-complete) - Tecnica efficiente per il linguaggio naturale - In biologia molte cose non sono sequenziali, ma si possono fare aggiustamenti - Embedding - Ogni parola viene associata ad una serie di numeri - Questi numeri possono essere rappresentati in un “vector space” - Attention mechanism - Permette di capire il contesto di ogni parola. E.g. aggettivi e nomi - In Biologia, il contesto potrebbe essere la funzione di una sequenza di DNA, di un gene, etc..
  • 21.
  • 22.
    Self-Attention Il meccanismo delself-attention permette al modello di imparare la relazione tra ogni coppia di parole nell’input E.g. aggettivi, sinonimi, parole nel contesto Un altro meccanismo, chiamato cross-attention, permette al modello di capire concetti piu’ astratti https://www.comet.com/site/blog/ex plainable-ai-for-transformers/
  • 23.
    Modelli Fondamentali inBioinformatica https://arxiv.org/abs/2402.04286
  • 24.
    Modelli Fondamentali - Unmodello fondamentale puo’ essere allenato per generare sequenze sintetiche (DNA, geni, etc..) - Questo permette al modello di imparare “il linguaggio” biologico, usando attenzione ed embeddings - E.g. sequenze codificanti, fattori di trascrizione, etc.. - Cambiando lo strato finale (fine- tuning), il modello puo’ imparare a fare altri tipi di predizione - E.g. diagnosticare una malattia https://arxiv.org/abs/2402.04286
  • 25.
    scGPT - Architettura Transformer applicataai dati di single-cell sequencing - Permette di identificare cell types, errori di batch, reti di geni, predizione di KO https://www.nature.com/articles/s41592-024-02201-0
  • 26.
    CpGPT (metilazione) Modello basatosu metilazione - Può essere utilizzato per generare arrays di metilazione - Imputazione di dati mancanti - Aggiornare Arrays basati su tecnologie vecchie (e.g. 27K CpGs) - Identificare regioni codificanti - Con il fine-tuning, il modello puo’ imparare: - A predire l’eta’ biologica di un paziente - Identificare tipi di cellule - Diagnosticare malattie https://www.biorxiv.org/content/biorxiv/early/2 024/10/29/2024.10.24.619766.full.pdf
  • 27.
    Tre applicazioni dichatGPT e altri LLMs per la ricerca di farmaci Assistente per i ricercatori: riassume articoli scientifici e genera codice per analisi dati. Agenti virtuali: simula team collaborativi per progettare nuovi farmaci. Modelli biologici avanzati: adatta la struttura del transformer al linguaggio del DNA. https://arxiv.org/abs/1706.03762
  • 28.