Hogyan elemezzük a nagy adatkészleteket?

Improved Medical Education in Basic
Sciences
for Better Medical Practicing
ImproveMEd
Rendszerbiológia orvostudományhoz
III. Hogyan elemezzük a nagy adatkészleteket?

A rendszerbiológiai tanulmányok
gyakran kezdenek expressziós
profillal (a gyógyszerrel kezelt, illetve
a nem kezelt sejtek, a normális
versus rákos sejtek, a különböző
fejlődési szakaszokban lévő sejtek) ...
microarray vagy RNAseq
használatával... microarray
használata költséghatékony
megközelítés ...
És ezt kapjuk

A microarray 10 000 foltot tartalmazhat. Tegyük fel, hogy
minden pont egy gén - hogyan szervezünk foltokat /
géneket az eredmény extraktálása érdekében?
A lézer szkenner egy fluoreszcens címkét mér, majd egy
másikat, amit ráhelyez és így tovább. Minden címkét
kétszer szkenneli.
a fluoreszcens jel intenzitása = a kötött DNS mennyisége
Minden pont helyettesíthető egy számmal, amely relatív
változást jelent a „normál” szinttől.
N = R / G… ..1 egyenlő expressziót jelent mindkét mintában
R = vörös fluoreszcencia (tumor)

A színeket számokká alakítják, mert a számok könnyebben
kezelhetők!
Minden pont helyettesíthető egy olyan számmal, amely relatív
változást jelent a "normál" szintekről.
R = piros fluoreszcencia (tumor)
G = zöld fluoreszcencia (normál sejt)
N = R/G
N=1 egyenlő expresszió mindkét mintában
N›1 indukció
N‹1 repressuió
http://www.hhmi.org/biointeractive/how-analyze-dna-microarray-
data
http://www.hhmi.org/biointeractive/scanning-lifes-matrix-genes-
proteins-and-small-molecules
Több mintát hasonlíthatunk össze ...
vagy egyet időben követünk- humán
fibroblasztok szérummal stimulálva és
24 órán keresztül követve (Iyer et al.,
1999)
And organize genes so that
induced one are clustered at
one end-opposite from
repressed one…
Az adatok ilyen bemutatását Heat Map (Heat Map)
nevezzük

A nagy adatokból származó ismeretek
kibontásához statisztikai módszerekre
van szükségünk!
Gyakran használt - R statisztikai csomag
LIMMA
A klaszterek azonosításához
használhatunk - klaszterelemzést!
Eredeti számok logaritmizáltak (2-es
vagy 10-es bázissal), és a hasonlósági
pontszámok kiszámításánál a
microarray platformot kísérő
számítógépes program segítségével.
Az adatok vizuális megjelenítéséhez a
számokat színre cseréljük, de ezúttal a
zöld az repressziót, a vörös pedig az
indukciót jelenti.

Az adatok bemutatásának másik
módja a Volcano plot (a GWS
tanulmányok esetében gyakori).
Az adatokat a "szórvány-plot" -on
mutatjuk be, hogy gyorsan
megtalálhassuk a
legérdekesebbeket, pl. génjelölt
bizonyos betegségben.
Két statisztikai vizsgálatot
kombinál: egy p értéket egy
ANOVA modelltől a változás
nagyságával.
Az adatok gyors felismerése
(gének, stb.), Amelyek
nagymértékű, statisztikailag
szignifikáns változásokat mutatnak.
A p>0.05 &
p<0.05
közötti határ
A két mintában az azonos paraméterek közötti különbség "fold change"-
ként jelenik meg.
A szürke változások kisebbek, mint 2x.
http://genomicsclass.github.io/book/pages/using_limma.html
Statisztikai
szignifikancia
Érdekes adatok

Mind a Heat Map, mind a Volcano Plot (és a mögöttük álló
statisztikai elemzés) az első lépés a megfigyelt fenotípus
mögötti gének / fehérjék azonosítása és rangsorolása felé. A
megfigyelt mechanizmusokért vagy potenciális terápiás
célokért felelős gének listáját a különböző bioinformatikai
eszközök lehet feldolgozni.
The gene list can be fed into: Gene Ontology, géncsoport dúsulás
vizsgálata,
Transzkripciós faktor analízis…
A létrehozott listáknak az egyedi nómenklatúrát kell használniuk ahhoz, hogy kölcsönösen összehasonlíthatók legyenek.

Gene Ontology – http://geneontology.org/
Bioinformatikai eszköz, amely alkalmas arra, hogy a
megfelelő nevet hozzárendelje a szekvenciához és
összekapcsolja a molekuláris változásokat a
sejtfolyamatokkal
A gének és a fehérjék a legtöbb élő szervezetben
megmaradnak, és közös funkciók vannak. A gén szerepe az
egyik szervezetben segíthet a másikban betöltött
szerepének megvilágításában. A Gene Ontológia
Consortium foglalkozik a génnómenklatúrával.
A készleteket az alábbiak szerint szervezzük:
Biológiai folyamat
Molekuláris funkció
Celluláris rekesz
The Gene Ontology Consortium, Nature, 2000.
Biológiai folyamatok, például: sejtnövekedés,
proliferáció, transzláció vagy cAMP szintézis ...

Celluláris rekesz
Szülő
csomópontok
Gyermek
csomópontok

Rendszerszintű
ORF név
standard gén
név
GO biológiai
folyamat
Molekuláris funkció
Celluláris rekesz

géncsoport dúsulás vizsgálata– GSEA
Analitikai módszer a génkészletek megtalálására és
értelmezésére.
Olyan géneket keres, amelyek együtt változnak
meghatározza az azonos jelátviteli útvonalon részt vevő
fehérjék szintjét
ugyanazon biológiai folyamatban részt vevő molekulákat
keresi
Ingyenes szoftvercsomag 1,325 biológiailag definiált
géncsoport kezdeti adatbázisával.
http://software.broadinstitute.org/gsea/index.jsp
Subramanian et al. (2005) PNAS 102:15545
1. Szortírozza a géneket egy kritérium, pl. expressziós szint
szerint
2. Hasonlítsa össze a listát egyes már létező listákkal, és
rendelje hozzá az egyes géneket az "erichrichment score" -
hez - a túlreprezentált vagy túlzottan csökkentett gének a
Kolmogorov-Smirnov típusú statisztikák szerint
3. A Max. Enrichment Score (MES) egy létező gén
relevancia-mutatója egy új adatkészlethez, amelyet most
vizsgálnak

Transzkripciós faktor analízis
Az expresszálódás szintjét megváltoztató géneket
ugyanaz a transzkripciós faktor szabályozhatja.
A géneket az omics adatok és az előzetes ismeretek
kombinálásával azonosítják.
A ChEA adatbázis jelenleg 159 transzkripciós faktort
kapcsol össze több mint 30 000 génnel - összesen
361 299 interakcióval -, amelyek 157 publikációból
származnak.
TRANSFAC, PAINT, JASPAR - egyéb adatbázisok a ChIP
számára
Kináz dúsítás elemzése (KEA)
Web alapú parancssori szoftver, amely összeköti az
emlős fehérjék listáját a protein kinázokkal, amelyek
valószínűleg foszforilizálják őket. Az adatbázis 436
kinázot és 14 374 interakciót tartalmaz 3469
publikációból.
http://amp.pharm.mssm.edu/Enrichr/
https://www.ncbi.nlm.nih.gov/pmc/articl
es/PMC2944209/

A transzkripciós faktorok egyidejűleg ugyanazon
promoteren működnek ...

A kromatin immunprecipitáció
egy választott módszer a
fehérjékkel kölcsönhatásban
lévő összes szekvencia
megtalálására. Az összes ChIP-
seq kísérletből származó adatok
ugyanabban az adatbázisban
(ChEA) táplálhatók
...https://galaxyproject.org/tutorials/chip/

Expression2Kinases –X2K
A szoftver, amely egyesíti a különböző
adatbázisokat és eszközöket.
INPUT: a különbözőképpen expresszált gének
listája
OUTPUT: protein kinázok, transzkripciós faktorok
és proteinkomplexek, amelyek a bejuttatott gének
feltételezett szabályozói.
Ilyen szoftverek felhasználásával hipotetikus
szabályozási útvonalakat építhetünk fel, és protein-
interakciós hálózatokat hozhatunk létre.
Az eredményeket kísérleti bizonyítékokkal is alá kell
támasztani!
The work-flow of X2K
Chen et al. (2012) Bioinformatics 28:105

Amit igazán akarunk az, hogy a listát hálózattá alakítsuk át -
gyakran használják a sejtösszetevők közötti kölcsönhatások
kimutatására
Euler, 1700s, Seven Bridges of Konigsberg
Csomópont
molekula
Él interakció

A rendszerbiológiához kapcsolódó hálózatok típusai
1. Sejt jelátviteli hálózatok
- rák jelátviteli hálózat
doi:10.1038/psp.2013.38
2. Protein-protein interakciós hálózatok
- Dystrophin fehérje-fehérje kereszteződések
http://parendogen677s10.weebly.com/protein-protein-interactions.html
3. Génszabályozó hálózatok
- A Drosophila szem fejlődése
- http://dev.biologists.org/content/140/1/82

Genes2Networks
Lists2Networks
Kombinálja a kísérleti adatokat (mRNS
expressziós mikroarray, genom-wide ChI-X,
RNAi screen, proteomika és
foszfoproteomika) minden ismert
kölcsönhatás (előzetes biológiai tudás)
http://www.lists2networks.org

További szoftverek léteznek a hálózatok vizualizálásához és
elemzéséhez:
Pajek (Vladimir Batagelj & Andrej Mrvar, Ljubljana,
Slovenia)
http://vlado.fmf.uni-
lj.si/pub/networks/doc/gd.01/Pajek2.png
http://vlado.fmf.uni-lj.si/pub/networks/doc/pajek.pdf
Cytoscape (Trey Ideker, Shannon et al.,2003.))
http://www.cytoscape.org/
SNAVI (Ma’ayan et al. 2009)
yEd…..
Az útvonalak, alhálózatok, klaszterek, a hálózati sajátosságok
azonosítása ...

A molekuláris adatokat tovább lehetne
integrálni a strukturális adatokkal a 3D
modellek (makromolekuláris komplexek,
virtuális sejtek) előállítása érdekében.
Patwardhan és mtsai. 2017, DOI: 10,7554 /
eLife.25835
(plazmodiummal fertőzött eritrociták)

1. A statisztikai elemzés kritikus fontosságú a nagy adathalmazokról
szerzett tudásbővítés során. A statisztikai analízis a vizsgálat
szempontjából releváns gének / fehérjék / RNS-ek listáját állítja
elő.
2. A gének listáját a bioinformatikai eszközökbe lehet bevinni, és az
előzetes ismeretekkel kombinálva új elméleti utakat,
alhálózatokat, szabályozási mechanizmust találhatunk ...
3. A kísérleti nagy adathalmazok és a korábbi ismeretek (több
adatbázis) integrálása lehetővé teszi a fiziológiás funkciók,
patofiziológia vagy farmakokinetika sokrétű megértését.
4. A számítással előállított jóslatokat kísérletileg bizonyítani kell.

Hogyan elemezzük a nagy adatkészleteket?

Recommended

Recommended

More Related Content

More from improvemed

More from improvemed (20)

Hogyan elemezzük a nagy adatkészleteket?