SlideShare una empresa de Scribd logo
1 de 106
Descargar para leer sin conexión
Statistical analysis of
       gene expression data

                Alex Sánchez
Unitat d'Estadística i Bioinformàtica (VHIR)
        Statistics Department (UB)
Who, where, what?
Outline
• Basic principles of experimental design
• Analysis of RT-qPCR data
• The microarray data analysis process
Basic principles of
Experimental Design
And Fisher said…

To consult the statistician after an
experiment is finished is often merely
to ask him to conduct a post mortem
examination.
He can perhaps say what the experiment
died of.


          Sir Ronald A. Fisher
 Father of modern Mathematical Statistics
 and Developer of Experimental Design
 and ANOVA
The three basic principles of
           Experimental Design

• Apply the following principles to best
  attain the objectives of experimental
  design
  – Replication
  – Local control or Blocking
  – Randomization
1. Replication
• Each treatment must be applied independently
  to several experimental units.
• Provides the means to estimate the EE variance
  in the absence of systematic differences among
  EUs treated alike which is important because
  treatment differences are judged against
  the EE variance.
• Provides the capacity to increase the precision
  for estimates of treatment means.
• By itself, does not guarantee valid estimates of
  EE or treatment differences.
Biological vs Technical
           Replicates



σB
 2




σA
 2




σe
 2




                 @ Nature reviews & G. Churchill (2002)
Replication vs Pooling

• mRNA from different samples are often combined to form
  a ``pooled-sample’’ or pool. Why?
   – If each sample doesn’t yield enough mRNA
   – To compensate an excess of variability  ?
• Statisticians tend not to like it but pooling may
  be OK if properly done
   – Combine several samples in each pool
   – Use several pools from different samples
   – Do not use pools when individual information is
     important (e.g.paired designs)
Examples of “pooling”
• Study with 12 patients  12 chips  Expensive
   – Optiob 1:
      • Group    A: 6 individuals  1 pool of 6  1 chip
      • Group    B: 6 individuals  1 pool of 6  1 chip
   – Option 2:
      • Group    A: 12 individuals  4 pools of 3  4 chip
      • Grupo    B: 12 individuals  4 pools of 3  4 chip
   – Option 2 may be cheaper and, at the samae time
     have similar precisio
     However, without having information about
     variability within pools and between individuals it
     cannot be assured 
Local Control
• Group EUs so that the variability of units
  within the groups is less than that among all
  units prior to grouping 
  – Differences among treatments are not confused with
    differences among experimental units.
  – EE is reduced by the variability associated with
    environmental differences among groups of units.
  – Effects of nuisance factors which contribute
    systematic variation to the differences among EUs
    can be eliminated.
  – Analysis is more sensitive.
Confounding block with treatment effects

                    Awful design                           Balanced design
    Sample    Treatment Sex      Batch   Sample       Treatment Sex      Batch
          1       A     Male         1            1       A      Male         1
          2       A     Male         1            2       A      Female       2
          3       A     Male         1            3       A      Male         2
          4       A     Male         1            4       A      Female       1
          5       B     Female       2            5       B      Male         1
          6       B     Female       2            6       B      Female       2
          7       B     Female       2            7       B      Male         2
          8       B     Female       2            8       B      Female       1



• Two alternative designs to investigate treatment effects
   – Left: Treatment effects confounded with Sex and Batch
     effect
   – Right: Treatments are balanced between blocks
       • Influence of blocks is automatically compensated
       • Statistical analysis may separate block from treatment efefect
3. Randomisation
• Randomly assigning samples to groups to
  eliminate unspecific disturbances
  – Randomly assign individuals to treatments.
  – Randomise order in which experiments are
    performed.
• Randomisation required to
  – ensure validity of statistical procedures.
  – Lead to unbiased estimates of variances and
    unbiased estimates of treatment differences,
  – Simulates the effects of independence among
    EUs that are otherwise controlled, selected, and
    monitored.
Allocating samples to treatments

• A key point in any experiment is the
  way that experimental units are
  allocated to treatments
  – It must be chosen so that random variability
    is as small as possible
  – It must be chosen so that the best local
    control is achieved.
  – It implicitly defines the analysis model, so it
    must be chosen so that the analysis can be
    performed and validity conditions hold.
Scary stories: batch effects
Efecto Batch en Microarrays


 Diferencias/variaciones no                  Solemos conocer la fuente
 biológicas observadas en                    pero no siempre se podrá
 experimentos de                             cuantificar y/o eliminar!!!
 microarrays


                       No suele invalidar el expeimento
            aunque si añade una cantidad de ruído no cuantificable


            Origen:
                 •Técnico que procesa las muestras
                 •Amplificación
                 •Lote del kit de tinción
                 •Reparto de muestras en las tandas de amplificación
                 •Kit de amplificación....
Técnico que procesa las muestras


Técnico 1: procesa muestras control
Técnico 2: procesa muestras
problema

Técnico 1: procesa muestras control y problema
Técnico 2: procesa muestras problema y control


SOLUCION

Técnico 1 y 2 no comparten
proyecto
Reparto de muestras en las tandas de amplificación


  12 muestras máximo por tanda de
  amplificación

  Proyectos n>12 muestras se han de repartir en diferentes tandas de
  amplificación

            Tanda 1: Controles
            Tanda 2: muestras problema


SOLUCION

            Tanda 1: se procesan muestras control y
            problema
            Tanda 2: se procesan muestras problema y
            control
Lote del Kit de tinción


Sondas se marcan con              Va perdiendo intensidad con el tiempo
ficoeritrina



      Hibridar cada tanda de 12
      muestras


SOLUCION

 Esperar a tener todas las
 muestras preparadas e
 hibridarlas todas a la vez
Eliminación del efecto batch


     • Con un diseño experimental apropiado el efecto batch se
       puede eliminar o atenuar
         • de forma implícita balanceando las muestras entre
            distinos lotes
         • de forma explícita estimando los efectos del batch y
            substrayéndolos de los valores originales.

     • Si el diseño no es adecuado, (e.g. hay CONFUSIÓN entre lote
       y tratamientos) no se podrá hacer nada.

     • Incluso con un buen diseño no se puede realizar la eliminación
       de muchos efectos batch de forma indefinida, porque cada vez
       se pierde más potencia estadística.

     • Es fácil que al final tengamos que aceptar algún efecto batch.
EJEMPLOS-1   Efecto del kit de marcaje
EJEMPLOS-2                 Efecto batch de nacimiento




      fileName    Camada           Grupo     ShortName   Colores


     E39+_-.CEL     1               1         E39pm11    yellow


     E39+_+.CEL     1               2         E39pp21    green


     E40+_-.CEL     2               1         E40pm12    yellow


     E40+_+.CEL     2               2         E40pp22    green


     E41+_-.CEL     3               1         E41pm23    yellow


     E41+_+.CEL     3               2         E41pp13    green


     E42+_-.CEL     4               1         E42pm24    yellow


     E42+_+.CEL     4               2         E42pp14    green
SIN CORREGIR
CORREGIDO
In summary
• Good experimental design is essential to
  perform good experiments.
• Experimental design means planning
  ahead
  – Should be done before the experiment starts
  – Should consider all the steps: from sampling
    to data analysis.
• Not a question of "statistical snobism"
  but of saving time and money and of
  doing good science
Basic aspects of
qPCR data analysis
Outline
• Common types of qPCR data analyses
• Biostatistical aspects of relative
  quantification
• Confirmatory and exploratory statistical
  analysis.
Real time qPCR data




• RT-qPCR data are CT or threshold cycle values.
  – CT= Cycle number at which detectable signal is achieved.
  – The Lower/higher the CT Larger/Smaller amount of starting material
Basic types of RT-qPCR analysis

• Two basic types of analysis
  – Absolute quantification
  – Relative quantification
• Choice based on
  – Experimental goals
  – Available resources
Absolute quantification
• Use absolute quantification…
  – To understand properties that are intrinsic
    to a given sample.
  – To answer the question "how many"?
• Examples of applications
  – Chromosome or gene copy number
    determination
  – Viral load measurements
Standard curve
• Absolute quantification is achieved by
  comparing CT values of each sample to a
  standard curve, which is obtained by
  – Using different known amounts of sample
  – For which CT is calculated
  – And plotted vs the (log) (known) quantity
Standard Calibration Curve
Example: determining absolute copy
      number from absolute quantification




• The standard curve is used only for interpolation
  but not for extrapolation (relation may not be
  linear outside the limits tested).
Absolute vs Relative quantifications

• Absolute quantification answers the
  question "how many" but gives no
  information about change.
• Relative quantification can be used to
  – Compare levels or changes in gene
    expression.
  – Answer the question – What is the fold
    difference?
Relative quantification methods

• For absolute quantification one requires a
  standard template with several known
  concentrations to build the curve.

• For relative quantification one needs to apply
  some form of normalization, that is one has to
  transform the data in order to
  – Remove possible experimental biases
  – Make data from different samples/groups
    comparable so that the term "relative" keeps its
    meaning.
Normalization against a unit mass
Normalization against a reference gene

• Benefit:
  – Circumvents need for accurate
    quantification of starting material


• Drawback:
  – Requires known reference genes with stable
    expression levels
Required CT values
Most common approaches

• Livak or ∆∆CT method


• The ∆CT method against a reference
  gene

• The Pfaffl method
Livak method (1)
Livak method (2)
Other methods
• Although Livak method is the most used
• The ∆CT method yields equivalent results
  but is simpler to calculate.
• The Pfaffl method is preferable when
  reaction efficiencies of the target and
  reference are not similar.
Biostatistical aspects of
 relative quantification
Biostatistical analysis
• Two main types of analyses
  – Comparative analyses,
    • Relatively rigorous
    • Check a predefined hypotheses
    • Relies on statistical testing


  – Expression profiling: Search for trends and
    patterns in the data
    • Exploratory, hypothesis generating approach
    • Less rigorous
    • Cluster analysis or PCA
Relative quantification
Expression profiling
Three basic premises
• Statistical analyses of RT-qPCR data
  relies on three assumptions
  – One gene-at-a-time
  – We are sampling from two different
    (unknown) independent populations
  – There exist unknown mechanisms that
    contribute to variability.
From assumptions to strategies (1)




• Use random sampling and randomization to
  obtain independent and representative samples.
From assumptions to strategies (2)




• Apply experimental design principles to minimize
  confounding variability
From assumptions to strategies (3)




• Perform statistical testing
• DO NOT FORGET about multiple testing adjustments
Statistical analysis




• Standard statistical approach: Confirmatory study-
  Reject or accept predefined hypothesis
Comparing two groups…
Comparing more than two groups
Exploratory statistical analysis




• If instead of confirming hypothesis we want to
  generate them (finding patterns in data)
Multivariate methods for
exploratory data analysis
Software for the analysis
• ABI
   – DataAssist
• Biogazelle
   – REST
• Bio-Rad
   – GENEX (Gene expression macro)
• Multid
   – GenEx
• Bioconductor
   – HTqPCR
• Integromics
   – StatMiner
Introduction to microarray
       data analysis
Esquema de la presentación

 Introducción y objetivos
 Análisis de datos de microarrays
    Tipos de datos y Tipos de estudios. Herramientas.
    El proceso de análisis. Ejemplos
 Críticas, consensos, consejos y “estado del
  arte”
  Críticas a los microarrays
  Consensos y consejos (“dos and don’ts”)
  MAQC-I, MAQC-II
 De los microarrays al diagnóstico
  ¿Porque está siempre por llegar?
Para aprender más …




http://www.ub.es/stat/docencia/bioinformatica/microarrays/ADM/
Tipos de estudios
(1): Class comparison
(2): Class discovery
(3): Class prediction
Y muchos más …
 Time Course
    Perfiles de expresión a lo largo del tiempo
 Pathway Analysis-(Systems Biology)
    Reconstrucción de redes metabólicas a partir
     de datos de expressión
 Whole Genome, CGH, Alternative
  Splicing
 Estudios con datos de distintos tipos
    Fusión o Integración de datos
Herramientas para el análisis
Programas de análisis de datos

 Multitud de herramientas
    Gratuítas / Comerciales
     [R, BRB, MeV, dChip…] / [Partek, GeneSpring, Ingenuity]
    Descargables / En-linea
     [R, BRB, MeV…] / [Gepas,…]
    Aísladas / Parte de “suites” o de sitios
     [BRB, dChip] / [MeV (TM4), OntoTools]
 A survey of free microarray data analysis tools:
    http://chagall.med.cornell.edu/I2MT/MA-tools.pdf
Programas de análisis libres
Programa                                              
R/Bioconductor    Potente, flexible,     Consola, difícil de
                 actualizado,           dominar
                  Unix/Windows/Mac

BRB tools         Basado en Excel,       Si falla, falla.
                  User-friendly          Difícil de extender

dChip             Expresión & SNP’s      Solo Windows
                  User-frinedly          Pocas opciones

Babelomics        Web-based,             Web-based
                  Multiples opciones,    Manejo algo rígido
                  Buen material

…
Babelomics: Viaje al conocimiento
Programas de análisis comerciales
Programa                                           
geneSpring    Muy extendido             ANOVA limitados
              Gráficos potentes         CARO
              Extensible (R)

Partek        ANOVA muy potente         Sólo estadística “clásica”
              Mult. tipos de datos      No extensible. Caro
              Visualización 3D

Ingenuity     BD de anotaciones         Centrada mayormente en
             Análisis de redes y de    datos de cáncer.
             significación biológica    Caro.

…
El proceso de análisis
Análisis de un experimento con microarrays




                             (1) Imágenes
                             (Datos crudos)


                             (2) C. de calidad
                             (bajo nivel)

                             (3) Preprocesado


                             (4) Exploración
                                 de la Matriz
                                 de Expresión

                             (5) Análisis


                             (6) Significación
                                 Biológica
(0) Diseño experimental
                                                                           • Variabilidad
                                                                              – Sistemática
                                                                                 • Calibrar/Normalizar
                                                                              – Aleatoria
                                                                                 • Diseño Experimental
                                                                                 • Inferencia
                                                                           • Decidir acerca de
               Awful design :-(                      Balanced design :-)
                                                                              – Réplicas,
Sample
      1
          Treatment Sex
              A      Male
                               Batch
                                    1
                                        Sample
                                             1
                                                 Treatment Sex
                                                     A      Male
                                                                              – Lotes (“Batch effect”)
      2
      3
              A
              A
                     Male
                     Male
                                    1
                                    1
                                             2
                                             3
                                                     A
                                                     A
                                                            Female
                                                            Male
                                                                              – Pools …
      4       A      Male           1        4       A      Female
      5       B      Female         2        5       B      Male
      6       B      Female         2        6       B      Female
      7       B      Female         2        7       B      Male
      8       B      Female         2        8       B      Female
(1) Obtención de la imagen
                     …            • Entra: Microarrays
                                  • Salen:
                                   – Imágenes (1/chip)
                                   – Ficheros de imagen
                                  • Información para cada
                                    sonda individual
                                  • Datos para el análisis
                                    de bajo nivel
                              …    – Control de calidad
                                   – Preprocesado
1.cel, 1.chp   2.cel, 2.chp        – Sumarización
(2) Control de calidad de bajo nivel

                                  • Entra:
                              …    – Imágenes (.CEL, ...)
1.cel, 1.chp   2.cel, 2.chp
                                  • Proceso
                                   – Diagnósticos y
                                     Control de calidad
                                   – Análisis basado en
                                     modelos (PLM)
                                  • Salen:
                                   – Gráficos
                                   – Estadísticos de
                                     control de calidad
(3) Preprocesado

                                          …           • Entra:
                                                        – Fichero de Imágenes
 1.cel, 1.chp      2.cel, 2.chp                           (datos del escaner)
                                                      • Proceso
                                                        – Eliminación de ruido
                                                        – Normalización
                                                        – Sumarización
                C01-001.CEL    C02-001.CEL C03-
                                                        – Filtrado
                                                      • Sale:
001.CEL
1415670_at       8.954387      9.088924    8.833863
1415671_at      10.700876     10.639307   10.610953

                                                        – Matriz de expresión
1415672_at      10.377266     10.510106   10.461701
1415673_at       7.320335      7.252635    7.112313
1415674_a_at     8.381129      8.332256    8.393718
1415675_at       8.120937      8.082713    8.051514
1415676_a_at    10.322229     10.287371   10.282812
1415677_at       9.038344      8.979641    8.905711
(4) Exploración
           C01-001.CEL   C02-001.CEL C03-001.CEL
1415670_at
1415671_at
                8.954387
               10.700876
                            9.088924
                           10.639307
                                        8.833863
                                       10.610953
                                                   • Entra
1415672_at
1415673_at
               10.377266
                7.320335
                           10.510106
                            7.252635
                                       10.461701
                                        7.112313    – Matriz de expresión
                                                   • Proceso
1415674_a_at    8.381129    8.332256    8.393718
1415675_at      8.120937    8.082713    8.051514
1415676_a_at   10.322229   10.287371   10.282812
1415677_at      9.038344    8.979641    8.905711    – PCA, Cluster, MDS
                                                    – Representaciones en
                                                      2D/3D
                                                    – Agrupaciones
                                                   • Sale
                                                    – Detectado efectos
                                                      batch
                                                    – Verificación calidad
(5) Análisis estadístico (i):
                    Selección de genes diferencialmente expresados

  1415670_at
             C01-001.CEL
                  8.954387
                           C02-001.CEL C03-001.CEL
                              9.088924    8.833863
                                                                                                  • Entra:
                                                                                                   – Matriz expresión
  1415671_at     10.700876   10.639307   10.610953
  1415672_at     10.377266   10.510106   10.461701
  1415673_at      7.320335    7.252635    7.112313
  1415674_a_at
  1415675_at
                  8.381129
                  8.120937
                              8.332256
                              8.082713
                                          8.393718
                                          8.051514
                                                                                                   – Modelo de análisis
                                                                                                  • Proceso
  1415676_a_at   10.322229   10.287371   10.282812
  1415677_at      9.038344    8.979641    8.905711

                                                                                                   – t-tests, ANOVA
                                                                                                     • Ajustes de p-valores
                                                                                                  • Sale
                                                                                                   – Listas de genes
                                                                                                     • Fold change, p.values
  ProbeSet           gene        ID        logFC        t       P.Value     adj.P.Val     B
1450826_a_at   Saa3         1450826_a_at      4,911    63,544    6,21E-14     2,80E-10   22,244
1457644_s_at   Cxcl1        1457644_s_at      4,286    53,015    3,52E-13     7,69E-10   20,791
1415904_at     Lpl          1415904_at       -4,132   -50,455    5,66E-13     7,69E-10   20,373



                                                                                                   – Gráficos
1449450_at     Ptges        1449450_at        5,164    49,483    6,82E-13     7,69E-10   20,207
1419209_at     Cxcl1        1419209_at        5,037    47,175    1,08E-12     9,71E-10   19,794
1416576_at     Socs3        1416576_at        3,372    42,107    3,19E-12     2,08E-09   18,784
1450330_at     Il10         1450330_at        4,519    42,056    3,23E-12     2,08E-09   18,773
1455899_x_at   Socs3        1455899_x_at      3,648    40,821    4,29E-12     2,12E-09   18,502


                                                                                                   – Perfiles de expresión
1419681_a_at   Prok2        1419681_a_at      3,709    40,645    4,48E-12     2,12E-09   18,463
1436555_at     Slc7a2       1436555_at        3,724    40,081    5,12E-12     2,12E-09   18,335
(5) Análisis estadístico (ii):
Construcción & validación de un predictor


                            • Entra:
                              – Matriz expresión
                            • Proceso
                              – Selección variables
                              – Ajuste modelo
                              – Validación
                            • Sale
                              – Modelos predictivos
                              – Medidas de fiabilidad
                                /reproducibilidad
(6) Significación biologica
  ProbeSet           gene        ID        logFC
1450826_a_at   Saa3         1450826_a_at      4,911
1457644_s_at   Cxcl1        1457644_s_at      4,286
1415904_at     Lpl          1415904_at       -4,132
1449450_at
1419209_at
               Ptges
               Cxcl1
                            1449450_at
                            1419209_at
                                              5,164
                                              5,037   • Entra
1416576_at     Socs3        1416576_at        3,372
1450330_at
1455899_x_at
               Il10
               Socs3
                            1450330_at
                            1455899_x_at
                                              4,519
                                              3,648
                                                       – Listas de genes
1419681_a_at   Prok2        1419681_a_at      3,709
1436555_at     Slc7a2       1436555_at        3,724
                                                      • Proceso
                                                       – GEA, GSEA, …
                                                      • Sale:
                                                       – Clases GO /
                                                         Grupos de Genes
                                                         Pathways
                                                         especialmente
                                                         representados
Ejemplo de análisis de datos


    Comparación de perfiles de expresión
       entre tumores BRCA1/BRCA2 y
      Construcción de un predictor que
       permita distinguir entre ambos.
Fuente del ejemplo
 Gene Expression Profiles in Hereditary
  Breast Cancer
• Hedenfalk, I, et. al., NEJM, Vol. 344,
  No. 8, pp 539-548.
 Objetivo: Encontrar un predictor basado
  en perfiles de expresión para diferenciar
  tumores asociados a BRCA1 y BRCA2
Esquema del análisis
•   Diseño experimental y datos para el
    análisis
•   Preprocesado
•   Exploración
•   Selección de genes
•   Construcción de varios predictores y
    selección del más apropiado
Diseño experimental
 Patie         BRCA1 v
  nt     PI    BRCA2 v     • RNA extraido de
Array    D      Sporadic
 s1321   20     Sporadic
                              – 7 pacientess. BRCA1
 s1996   1       BRCA1        – 8 pacients BRCA2
 s1822   5       BRCA1        – 7 con cancer “esporádico”
 s1714   3       BRCA1
                           • 6512 sondas
 s1224   7       BRCA1
 s1252   2       BRCA1        – 5361 genes
 s1510   4       BRCA1            • 3226 retenidos para el
 s1900   10      BRCA2              análisis
 s1787   9       BRCA2
                           • Diseño de referencia
 s1721   8       BRCA2
 s1486   22      BRCA2
                              – Cada muestra comparada
 s1572   16     Sporadic
                                contra linea celular no
 s1324   17     Sporadic
                                tumorgénica (MCF-104)
 s1649   15     Sporadic
 s1320   18     Sporadic
 s1542   19     Sporadic
 s1281   21     Sporadic
 s1905   6       BRCA1
 s1816   13      BRCA2
Datos: log ratios
Preprocesado:
Filtrado y Normalización
Exploración (1)
Exploración (2)
Análisis (1). Selección de genes
       (class comparison)


                  • BRCA1 vs noBRCA1
                  • Usamos un t-test y
                    un cutoff de 0.0001
                    – es decir declaramos
                      diferencialmenete
                      expresados los genes
                      cuyo p-valor sea
                      inferior a 0.0001
                  • No hacemos ajustes
                    – Mínimo FC
                    – Multiple testing
Resultados (1): Lista de genes
        Parametric
Order      p-value    FDR      Fold-change   Unique id                            Description                        Clone
    1   1.66e-05     0.0198   2.24           HV34H7      ESTs                                                        247818
    2   2.17e-05     0.0198   2.03           UG5G3       minichromosome maintenance deficient (S. cerevisiae) 7        46019
    3   2.3e-05      0.0198   0.31           HV17G6      keratin 8                                                   897781
    4   3.37e-05     0.0198   1.89           HV18E8      SELENOPHOSPHATE SYNTHETASE ; Human selenium donor protein   840702
    5   3.63e-05     0.0198   2.21           HV32C7      ESTs                                                        307843
    6   4.32e-05     0.0198   1.57           UG1F1       very low density lipoprotein receptor                         26082
    7   4.5e-05      0.0198   1.67           HV24F5      chromobox homolog 3 (Drosophila HP1 gamma)                  566887
    8   4.92e-05     0.0198   2.02           LO3F1       butyrate response factor 1 (EGF-response factor 1)          366647
    9   9.43e-05     0.0338   1.85           HV9E3       "tumor protein p53-binding protein, 2"                      212198
Análisis (2):
Construcción de un predictor

                • Construímos
                  predictores por 6
                  métodos distintos.
                • Genes candidatos por
                  class-comparison.
                • Elegimos el que
                  presente menor tasa
                  de error de predicción
                  (estimada por leave
                  one out)
Resumiendo…
 El análisis de microarrays puede visualizarse
  como un proceso.

 Es importante conocer
  Los métodos apropiados para cada problrma,
  los parámetros, el significado, las limitaciones de
   cada paso.

 Una aplicación adecuada del proceso
  proporciona información relevante como...
  una lista de genes diferencialmente expresados
   (biomarcadores).
  un modelo con capacidad de predecir (firma)
Limitaciones del método


Críticas, consejos, consensos y
        “estado del arte”
Limitaciones de los microarrays
An array of problems?
• Poca reproducibilidad entre estudios
  – Poca coincidencia entre las listas de genes
  – No reproducción de las predicciones en
    nuevos conjuntos de test
• Falta de estándares
• Falta de consenso en los métodos
• El paso a la clínica siempre por llegar

• Mediados de la década: ¿Promesa o
  realidad?
Que no estamos tan mal...
Algunos consensos
                    (Allison 2006)
• Diseño
   – Biological replication is essential
   – There is strength in numbers: power & sample size
   – Pooling biological samples can be useful


• Seleccion de genes diferencialmente expresados
   – Using FC alone as a differential expression test is not valid
   – 'Shrinkage' is a good thing
   –   FDR is a good alternative to conventional multiple-testing approaches



• Clasificación y Predicción
   – Unsupervised classification is overused
   – Unsupervised classification should be validated using resampling-
   – Supervised-classification requires independent cross-validation
No todos los estudios se
            hacen bien...
• Dupuy & Simon estudian 90 publicaciones.
  – Análisis detallado de los métodos usados en 42.
• Ecuentran algunos errores comunes
  – Objetivos pobremente definidos.
  – No hay control de la multiplicidad
    104 genes  104 tests  P(Falso+) muy alta
  – Ni se informa bien de la fiabilidad de un predictor.
  – No se utiliza un conjunto de test independiente.
  – Se abusa por doquier del análisis de clusters.
Aunque es posible hacerlo bien si...

    • Se procura... (do’s)                       • Se evita... (don’t)
         – Definir bien objetivos.                    – Basar la selección tan
         – Combinar el p-valor y                        sólo en “Fold Change”
           el FC al seleccionar                       – Usar p-valores de 0.05
           genes.                                     – Usar métodos de cluster
         – Usar la FDR para el                          si lo que se deseara es
           control de                                   clasificar muestras.
           multiplicidad.                             – Violar el principio básico
         – Validar un predictor                         de la validación (no debe
           con un conjunto de                           usarse el cjto de prueba
           prueba independiente.                        antes de la validación).
         – Contar con un
           estadístico
... Hasta 40 “do’s” y “don’ts” en la tabla 3 de Dupuy y Simon (JNCI 99 (2): 147-157).
Resumiendo
• Los microarrays tienen algunas
  limitaciones –razonables e intrínsecas-
• Un adecuado uso de los métodos de
  análisis puede generar información útil,
  fiable y reproducible.
• Aún así el paso de la clínica al diagnóstico
  es más lento de lo que se esperaba.


                ¿Por qué?
De la investigación básica a los
diagnóstico basados en microarrays


          ¿Para cuando?
La idea está clara...
Pero hay muy pocos kits de diagnóstico...
Algunas de las dificultades
• Se precisan estudios muy grandes para establecer la
  potencia de un (kit) diagnóstico y validarlo en una
  cohorte independiente y suficientemente amplio.

• Hacen falta estandarizaciones y sistemas de control de
  calidad validados según criterios de laboratorios clínicos.

• Los tests de perfiles de expresión han de cumplir las
  normas de la Agencia Médica Europea y/o la FDA.

• Para justificar su desarrollo hay que hacer estudios de
  coste efectividad que sugieran una clara mejora en el
  tratamiento al paciente y retorno de inversión y
  beneficios en el medio/largo plazo.
Estado de los diagnósticos basados en
             microarrays




           Lleno: ,    Vacío: 
Resumiendo
• Se espera que la creciente calidad y tamaño de los
  estudios genere nuevos perfiles de expresión
  transportables al diagnóstico.

• Aspectos como estandarización y automatización
  (robótica) para minimizar la intervención humana
  están cada vez mejor.

• Otros como la regulación por parte de las agencias y
  las políticas de reembolso a los inversores y los
  laboratorios deben de irse resolviendo.

• No es improbable un futuro en el que el “lab-on-a-
  chip” forme parte de las herramientas de los clínicos.

Más contenido relacionado

Similar a Course VHIR-UCTS-UEB - Session 3 - Statistical Analysis

Diseño completalmente aleatorio 1
Diseño completalmente aleatorio 1Diseño completalmente aleatorio 1
Diseño completalmente aleatorio 1Carmelo Perez
 
Sesión 10 (clase)
Sesión 10 (clase)Sesión 10 (clase)
Sesión 10 (clase)Rob Sorian
 
Diseños Experimentales según Calimont
Diseños Experimentales según CalimontDiseños Experimentales según Calimont
Diseños Experimentales según CalimontCONASIN PERU
 
Planificación y Análisis de Experimentos de Forma Correcta
Planificación y Análisis de Experimentos de Forma CorrectaPlanificación y Análisis de Experimentos de Forma Correcta
Planificación y Análisis de Experimentos de Forma CorrectaXavi Barber
 
UNIDAD #3 DISEÑO DE BLOQUES
UNIDAD #3 DISEÑO DE BLOQUES UNIDAD #3 DISEÑO DE BLOQUES
UNIDAD #3 DISEÑO DE BLOQUES Erick Cantona
 
13._heterogeneity_v1.1_spanish_jcv.ppt
13._heterogeneity_v1.1_spanish_jcv.ppt13._heterogeneity_v1.1_spanish_jcv.ppt
13._heterogeneity_v1.1_spanish_jcv.pptLinoOswaldo
 
21)2017-1_Bringas Gutiérrez_Alejandra Guadalupe
21)2017-1_Bringas Gutiérrez_Alejandra Guadalupe21)2017-1_Bringas Gutiérrez_Alejandra Guadalupe
21)2017-1_Bringas Gutiérrez_Alejandra Guadalupemarconuneze
 
1_principios básicos del diseño de experimentos (2).pptx
1_principios básicos del diseño de experimentos (2).pptx1_principios básicos del diseño de experimentos (2).pptx
1_principios básicos del diseño de experimentos (2).pptxHaroldOyarvide
 
Revicion sistematica de la evidencia
Revicion sistematica de la evidenciaRevicion sistematica de la evidencia
Revicion sistematica de la evidenciafpradas
 
Revisión Sistematica de la Evidencia Científica
Revisión Sistematica de la Evidencia CientíficaRevisión Sistematica de la Evidencia Científica
Revisión Sistematica de la Evidencia Científicafpradas
 
Prueba de chi cuadrado y pruebas no paraetricas
Prueba de chi cuadrado y pruebas no paraetricasPrueba de chi cuadrado y pruebas no paraetricas
Prueba de chi cuadrado y pruebas no paraetricasGerardo Gomez
 
392280174-Fase-5-diseno-experimental.pptx
392280174-Fase-5-diseno-experimental.pptx392280174-Fase-5-diseno-experimental.pptx
392280174-Fase-5-diseno-experimental.pptxJohanaChala2
 
Taller de iniciación a la investigación clínica. parte ii
Taller de iniciación a la investigación clínica. parte iiTaller de iniciación a la investigación clínica. parte ii
Taller de iniciación a la investigación clínica. parte iiXavi Barber
 

Similar a Course VHIR-UCTS-UEB - Session 3 - Statistical Analysis (20)

Diseño completalmente aleatorio 1
Diseño completalmente aleatorio 1Diseño completalmente aleatorio 1
Diseño completalmente aleatorio 1
 
6. diseno de investigacion
6. diseno de investigacion6. diseno de investigacion
6. diseno de investigacion
 
Sesión 10 (clase)
Sesión 10 (clase)Sesión 10 (clase)
Sesión 10 (clase)
 
Diseños Experimentales según Calimont
Diseños Experimentales según CalimontDiseños Experimentales según Calimont
Diseños Experimentales según Calimont
 
Ensayos y datos confiables: Clave para la toma de buenas decisiones en los pr...
Ensayos y datos confiables: Clave para la toma de buenas decisiones en los pr...Ensayos y datos confiables: Clave para la toma de buenas decisiones en los pr...
Ensayos y datos confiables: Clave para la toma de buenas decisiones en los pr...
 
Planificación y Análisis de Experimentos de Forma Correcta
Planificación y Análisis de Experimentos de Forma CorrectaPlanificación y Análisis de Experimentos de Forma Correcta
Planificación y Análisis de Experimentos de Forma Correcta
 
Clase 16 ensayos clínicos
Clase 16 ensayos clínicos Clase 16 ensayos clínicos
Clase 16 ensayos clínicos
 
UNIDAD #3 DISEÑO DE BLOQUES
UNIDAD #3 DISEÑO DE BLOQUES UNIDAD #3 DISEÑO DE BLOQUES
UNIDAD #3 DISEÑO DE BLOQUES
 
D experimentos 1
D experimentos 1D experimentos 1
D experimentos 1
 
Diapo
DiapoDiapo
Diapo
 
13._heterogeneity_v1.1_spanish_jcv.ppt
13._heterogeneity_v1.1_spanish_jcv.ppt13._heterogeneity_v1.1_spanish_jcv.ppt
13._heterogeneity_v1.1_spanish_jcv.ppt
 
Web
WebWeb
Web
 
21)2017-1_Bringas Gutiérrez_Alejandra Guadalupe
21)2017-1_Bringas Gutiérrez_Alejandra Guadalupe21)2017-1_Bringas Gutiérrez_Alejandra Guadalupe
21)2017-1_Bringas Gutiérrez_Alejandra Guadalupe
 
1_principios básicos del diseño de experimentos (2).pptx
1_principios básicos del diseño de experimentos (2).pptx1_principios básicos del diseño de experimentos (2).pptx
1_principios básicos del diseño de experimentos (2).pptx
 
Revicion sistematica de la evidencia
Revicion sistematica de la evidenciaRevicion sistematica de la evidencia
Revicion sistematica de la evidencia
 
Revisión Sistematica de la Evidencia Científica
Revisión Sistematica de la Evidencia CientíficaRevisión Sistematica de la Evidencia Científica
Revisión Sistematica de la Evidencia Científica
 
Diseño de experimentos
Diseño de experimentosDiseño de experimentos
Diseño de experimentos
 
Prueba de chi cuadrado y pruebas no paraetricas
Prueba de chi cuadrado y pruebas no paraetricasPrueba de chi cuadrado y pruebas no paraetricas
Prueba de chi cuadrado y pruebas no paraetricas
 
392280174-Fase-5-diseno-experimental.pptx
392280174-Fase-5-diseno-experimental.pptx392280174-Fase-5-diseno-experimental.pptx
392280174-Fase-5-diseno-experimental.pptx
 
Taller de iniciación a la investigación clínica. parte ii
Taller de iniciación a la investigación clínica. parte iiTaller de iniciación a la investigación clínica. parte ii
Taller de iniciación a la investigación clínica. parte ii
 

Más de VHIR Vall d’Hebron Institut de Recerca

Introduction to Metagenomics. Applications, Approaches and Tools (Bioinformat...
Introduction to Metagenomics. Applications, Approaches and Tools (Bioinformat...Introduction to Metagenomics. Applications, Approaches and Tools (Bioinformat...
Introduction to Metagenomics. Applications, Approaches and Tools (Bioinformat...VHIR Vall d’Hebron Institut de Recerca
 
Introduction to Functional Analysis with IPA (UEB-UAT Bioinformatics Course -...
Introduction to Functional Analysis with IPA (UEB-UAT Bioinformatics Course -...Introduction to Functional Analysis with IPA (UEB-UAT Bioinformatics Course -...
Introduction to Functional Analysis with IPA (UEB-UAT Bioinformatics Course -...VHIR Vall d’Hebron Institut de Recerca
 
Introduction to RNA-seq and RNA-seq Data Analysis (UEB-UAT Bioinformatics Cou...
Introduction to RNA-seq and RNA-seq Data Analysis (UEB-UAT Bioinformatics Cou...Introduction to RNA-seq and RNA-seq Data Analysis (UEB-UAT Bioinformatics Cou...
Introduction to RNA-seq and RNA-seq Data Analysis (UEB-UAT Bioinformatics Cou...VHIR Vall d’Hebron Institut de Recerca
 
Basic Aspects of Microarray Technology and Data Analysis (UEB-UAT Bioinformat...
Basic Aspects of Microarray Technology and Data Analysis (UEB-UAT Bioinformat...Basic Aspects of Microarray Technology and Data Analysis (UEB-UAT Bioinformat...
Basic Aspects of Microarray Technology and Data Analysis (UEB-UAT Bioinformat...VHIR Vall d’Hebron Institut de Recerca
 
Brief Overview to Amplicon Variant Analysis (UEB-UAT Bioinformatics Course - ...
Brief Overview to Amplicon Variant Analysis (UEB-UAT Bioinformatics Course - ...Brief Overview to Amplicon Variant Analysis (UEB-UAT Bioinformatics Course - ...
Brief Overview to Amplicon Variant Analysis (UEB-UAT Bioinformatics Course - ...VHIR Vall d’Hebron Institut de Recerca
 
Introduction to NGS Variant Calling Analysis (UEB-UAT Bioinformatics Course -...
Introduction to NGS Variant Calling Analysis (UEB-UAT Bioinformatics Course -...Introduction to NGS Variant Calling Analysis (UEB-UAT Bioinformatics Course -...
Introduction to NGS Variant Calling Analysis (UEB-UAT Bioinformatics Course -...VHIR Vall d’Hebron Institut de Recerca
 
Introduction to Galaxy (UEB-UAT Bioinformatics Course - Session 2.2 - VHIR, B...
Introduction to Galaxy (UEB-UAT Bioinformatics Course - Session 2.2 - VHIR, B...Introduction to Galaxy (UEB-UAT Bioinformatics Course - Session 2.2 - VHIR, B...
Introduction to Galaxy (UEB-UAT Bioinformatics Course - Session 2.2 - VHIR, B...VHIR Vall d’Hebron Institut de Recerca
 
NGS Applications II (UEB-UAT Bioinformatics Course - Session 2.1.3 - VHIR, Ba...
NGS Applications II (UEB-UAT Bioinformatics Course - Session 2.1.3 - VHIR, Ba...NGS Applications II (UEB-UAT Bioinformatics Course - Session 2.1.3 - VHIR, Ba...
NGS Applications II (UEB-UAT Bioinformatics Course - Session 2.1.3 - VHIR, Ba...VHIR Vall d’Hebron Institut de Recerca
 
NGS Applications I (UEB-UAT Bioinformatics Course - Session 2.1.2 - VHIR, Bar...
NGS Applications I (UEB-UAT Bioinformatics Course - Session 2.1.2 - VHIR, Bar...NGS Applications I (UEB-UAT Bioinformatics Course - Session 2.1.2 - VHIR, Bar...
NGS Applications I (UEB-UAT Bioinformatics Course - Session 2.1.2 - VHIR, Bar...VHIR Vall d’Hebron Institut de Recerca
 
NGS Introduction and Technology Overview (UEB-UAT Bioinformatics Course - Ses...
NGS Introduction and Technology Overview (UEB-UAT Bioinformatics Course - Ses...NGS Introduction and Technology Overview (UEB-UAT Bioinformatics Course - Ses...
NGS Introduction and Technology Overview (UEB-UAT Bioinformatics Course - Ses...VHIR Vall d’Hebron Institut de Recerca
 
Storing and Accessing Information. Databases and Queries (UEB-UAT Bioinformat...
Storing and Accessing Information. Databases and Queries (UEB-UAT Bioinformat...Storing and Accessing Information. Databases and Queries (UEB-UAT Bioinformat...
Storing and Accessing Information. Databases and Queries (UEB-UAT Bioinformat...VHIR Vall d’Hebron Institut de Recerca
 
Introduction to Bioinformatics (UEB-UAT Bioinformatics Course - Session 1.1 -...
Introduction to Bioinformatics (UEB-UAT Bioinformatics Course - Session 1.1 -...Introduction to Bioinformatics (UEB-UAT Bioinformatics Course - Session 1.1 -...
Introduction to Bioinformatics (UEB-UAT Bioinformatics Course - Session 1.1 -...VHIR Vall d’Hebron Institut de Recerca
 
Genome Browsing, Genomic Data Mining and Genome Data Visualization with Ensem...
Genome Browsing, Genomic Data Mining and Genome Data Visualization with Ensem...Genome Browsing, Genomic Data Mining and Genome Data Visualization with Ensem...
Genome Browsing, Genomic Data Mining and Genome Data Visualization with Ensem...VHIR Vall d’Hebron Institut de Recerca
 

Más de VHIR Vall d’Hebron Institut de Recerca (20)

Introduction to Metagenomics. Applications, Approaches and Tools (Bioinformat...
Introduction to Metagenomics. Applications, Approaches and Tools (Bioinformat...Introduction to Metagenomics. Applications, Approaches and Tools (Bioinformat...
Introduction to Metagenomics. Applications, Approaches and Tools (Bioinformat...
 
Introduction to Functional Analysis with IPA (UEB-UAT Bioinformatics Course -...
Introduction to Functional Analysis with IPA (UEB-UAT Bioinformatics Course -...Introduction to Functional Analysis with IPA (UEB-UAT Bioinformatics Course -...
Introduction to Functional Analysis with IPA (UEB-UAT Bioinformatics Course -...
 
Introduction to RNA-seq and RNA-seq Data Analysis (UEB-UAT Bioinformatics Cou...
Introduction to RNA-seq and RNA-seq Data Analysis (UEB-UAT Bioinformatics Cou...Introduction to RNA-seq and RNA-seq Data Analysis (UEB-UAT Bioinformatics Cou...
Introduction to RNA-seq and RNA-seq Data Analysis (UEB-UAT Bioinformatics Cou...
 
Basic Aspects of Microarray Technology and Data Analysis (UEB-UAT Bioinformat...
Basic Aspects of Microarray Technology and Data Analysis (UEB-UAT Bioinformat...Basic Aspects of Microarray Technology and Data Analysis (UEB-UAT Bioinformat...
Basic Aspects of Microarray Technology and Data Analysis (UEB-UAT Bioinformat...
 
Brief Overview to Amplicon Variant Analysis (UEB-UAT Bioinformatics Course - ...
Brief Overview to Amplicon Variant Analysis (UEB-UAT Bioinformatics Course - ...Brief Overview to Amplicon Variant Analysis (UEB-UAT Bioinformatics Course - ...
Brief Overview to Amplicon Variant Analysis (UEB-UAT Bioinformatics Course - ...
 
Introduction to NGS Variant Calling Analysis (UEB-UAT Bioinformatics Course -...
Introduction to NGS Variant Calling Analysis (UEB-UAT Bioinformatics Course -...Introduction to NGS Variant Calling Analysis (UEB-UAT Bioinformatics Course -...
Introduction to NGS Variant Calling Analysis (UEB-UAT Bioinformatics Course -...
 
Introduction to Galaxy (UEB-UAT Bioinformatics Course - Session 2.2 - VHIR, B...
Introduction to Galaxy (UEB-UAT Bioinformatics Course - Session 2.2 - VHIR, B...Introduction to Galaxy (UEB-UAT Bioinformatics Course - Session 2.2 - VHIR, B...
Introduction to Galaxy (UEB-UAT Bioinformatics Course - Session 2.2 - VHIR, B...
 
NGS Applications II (UEB-UAT Bioinformatics Course - Session 2.1.3 - VHIR, Ba...
NGS Applications II (UEB-UAT Bioinformatics Course - Session 2.1.3 - VHIR, Ba...NGS Applications II (UEB-UAT Bioinformatics Course - Session 2.1.3 - VHIR, Ba...
NGS Applications II (UEB-UAT Bioinformatics Course - Session 2.1.3 - VHIR, Ba...
 
NGS Applications I (UEB-UAT Bioinformatics Course - Session 2.1.2 - VHIR, Bar...
NGS Applications I (UEB-UAT Bioinformatics Course - Session 2.1.2 - VHIR, Bar...NGS Applications I (UEB-UAT Bioinformatics Course - Session 2.1.2 - VHIR, Bar...
NGS Applications I (UEB-UAT Bioinformatics Course - Session 2.1.2 - VHIR, Bar...
 
NGS Introduction and Technology Overview (UEB-UAT Bioinformatics Course - Ses...
NGS Introduction and Technology Overview (UEB-UAT Bioinformatics Course - Ses...NGS Introduction and Technology Overview (UEB-UAT Bioinformatics Course - Ses...
NGS Introduction and Technology Overview (UEB-UAT Bioinformatics Course - Ses...
 
Storing and Accessing Information. Databases and Queries (UEB-UAT Bioinformat...
Storing and Accessing Information. Databases and Queries (UEB-UAT Bioinformat...Storing and Accessing Information. Databases and Queries (UEB-UAT Bioinformat...
Storing and Accessing Information. Databases and Queries (UEB-UAT Bioinformat...
 
Introduction to Bioinformatics (UEB-UAT Bioinformatics Course - Session 1.1 -...
Introduction to Bioinformatics (UEB-UAT Bioinformatics Course - Session 1.1 -...Introduction to Bioinformatics (UEB-UAT Bioinformatics Course - Session 1.1 -...
Introduction to Bioinformatics (UEB-UAT Bioinformatics Course - Session 1.1 -...
 
Genome Browsing, Genomic Data Mining and Genome Data Visualization with Ensem...
Genome Browsing, Genomic Data Mining and Genome Data Visualization with Ensem...Genome Browsing, Genomic Data Mining and Genome Data Visualization with Ensem...
Genome Browsing, Genomic Data Mining and Genome Data Visualization with Ensem...
 
Information management at vhir ueb using tiki-cms
Information management at vhir ueb using tiki-cmsInformation management at vhir ueb using tiki-cms
Information management at vhir ueb using tiki-cms
 
Introduction to Metagenomics Data Analysis - UEB-VHIR - 2013
Introduction to Metagenomics Data Analysis - UEB-VHIR - 2013Introduction to Metagenomics Data Analysis - UEB-VHIR - 2013
Introduction to Metagenomics Data Analysis - UEB-VHIR - 2013
 
Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de RT-qPCR
Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de RT-qPCRCurso de Genómica - UAT (VHIR) 2012 - Análisis de datos de RT-qPCR
Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de RT-qPCR
 
Curso de Genómica - UAT (VHIR) 2012 - RT-qPCR
Curso de Genómica - UAT (VHIR) 2012 - RT-qPCRCurso de Genómica - UAT (VHIR) 2012 - RT-qPCR
Curso de Genómica - UAT (VHIR) 2012 - RT-qPCR
 
Curso de Genómica - UAT (VHIR) 2012 - Microarrays
Curso de Genómica - UAT (VHIR) 2012 - MicroarraysCurso de Genómica - UAT (VHIR) 2012 - Microarrays
Curso de Genómica - UAT (VHIR) 2012 - Microarrays
 
Curso de Genómica - UAT (VHIR) 2012 - Arrays de Proteínas Zeptosens
 Curso de Genómica - UAT (VHIR) 2012 - Arrays de Proteínas Zeptosens Curso de Genómica - UAT (VHIR) 2012 - Arrays de Proteínas Zeptosens
Curso de Genómica - UAT (VHIR) 2012 - Arrays de Proteínas Zeptosens
 
Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de NGS
Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de NGSCurso de Genómica - UAT (VHIR) 2012 - Análisis de datos de NGS
Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de NGS
 

Último

tarea de exposicion de senati zzzzzzzzzz
tarea de exposicion de senati zzzzzzzzzztarea de exposicion de senati zzzzzzzzzz
tarea de exposicion de senati zzzzzzzzzzAlexandergo5
 
Tecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptxTecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptxGESTECPERUSAC
 
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPOAREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPOnarvaezisabella21
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxaylincamaho
 
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del PerúRed Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del PerúCEFERINO DELGADO FLORES
 
Los Microcontroladores PIC, Aplicaciones
Los Microcontroladores PIC, AplicacionesLos Microcontroladores PIC, Aplicaciones
Los Microcontroladores PIC, AplicacionesEdomar AR
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadMiguelAngelVillanuev48
 
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptLUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptchaverriemily794
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxazmysanros90
 
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxLAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxAlexander López
 
GonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptxGonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptx241523733
 
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxEl_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxAlexander López
 
Trabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfTrabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfedepmariaperez
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.241514949
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxNombre Apellidos
 
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.pptTEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.pptJavierHerrera662252
 
Excel (1) tecnologia.pdf trabajo Excel taller
Excel  (1) tecnologia.pdf trabajo Excel tallerExcel  (1) tecnologia.pdf trabajo Excel taller
Excel (1) tecnologia.pdf trabajo Excel tallerValentinaTabares11
 
Mapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMidwarHenryLOZAFLORE
 
FloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptxFloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptx241522327
 
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfLa Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfjeondanny1997
 

Último (20)

tarea de exposicion de senati zzzzzzzzzz
tarea de exposicion de senati zzzzzzzzzztarea de exposicion de senati zzzzzzzzzz
tarea de exposicion de senati zzzzzzzzzz
 
Tecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptxTecnologias Starlink para el mundo tec.pptx
Tecnologias Starlink para el mundo tec.pptx
 
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPOAREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
AREA TECNOLOGIA E INFORMATICA TRABAJO EN EQUIPO
 
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptxMedidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
Medidas de formas, coeficiente de asimetría y coeficiente de curtosis.pptx
 
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del PerúRed Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
Red Dorsal Nacional de Fibra Óptica y Redes Regionales del Perú
 
Los Microcontroladores PIC, Aplicaciones
Los Microcontroladores PIC, AplicacionesLos Microcontroladores PIC, Aplicaciones
Los Microcontroladores PIC, Aplicaciones
 
Presentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidadPresentación inteligencia artificial en la actualidad
Presentación inteligencia artificial en la actualidad
 
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).pptLUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
LUXOMETRO EN SALUD OCUPACIONAL(FINAL).ppt
 
tics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptxtics en la vida cotidiana prepa en linea modulo 1.pptx
tics en la vida cotidiana prepa en linea modulo 1.pptx
 
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptxLAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
LAS_TIC_COMO_HERRAMIENTAS_EN_LA_INVESTIGACIÓN.pptx
 
GonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptxGonzalezGonzalez_Karina_M1S3AI6... .pptx
GonzalezGonzalez_Karina_M1S3AI6... .pptx
 
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptxEl_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
El_Blog_como_herramienta_de_publicacion_y_consulta_de_investigacion.pptx
 
Trabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdfTrabajo de tecnología excel avanzado.pdf
Trabajo de tecnología excel avanzado.pdf
 
El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.El uso de las TIC's en la vida cotidiana.
El uso de las TIC's en la vida cotidiana.
 
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptxCrear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
Crear un recurso multimedia. Maricela_Ponce_DomingoM1S3AI6-1.pptx
 
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.pptTEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
TEMA 2 PROTOCOLO DE EXTRACCION VEHICULAR.ppt
 
Excel (1) tecnologia.pdf trabajo Excel taller
Excel  (1) tecnologia.pdf trabajo Excel tallerExcel  (1) tecnologia.pdf trabajo Excel taller
Excel (1) tecnologia.pdf trabajo Excel taller
 
Mapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptxMapa-conceptual-del-Origen-del-Universo-3.pptx
Mapa-conceptual-del-Origen-del-Universo-3.pptx
 
FloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptxFloresMorales_Montserrath_M1S3AI6 (1).pptx
FloresMorales_Montserrath_M1S3AI6 (1).pptx
 
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdfLa Electricidad Y La Electrónica Trabajo Tecnología.pdf
La Electricidad Y La Electrónica Trabajo Tecnología.pdf
 

Course VHIR-UCTS-UEB - Session 3 - Statistical Analysis

  • 1. Statistical analysis of gene expression data Alex Sánchez Unitat d'Estadística i Bioinformàtica (VHIR) Statistics Department (UB)
  • 3. Outline • Basic principles of experimental design • Analysis of RT-qPCR data • The microarray data analysis process
  • 5. And Fisher said… To consult the statistician after an experiment is finished is often merely to ask him to conduct a post mortem examination. He can perhaps say what the experiment died of. Sir Ronald A. Fisher Father of modern Mathematical Statistics and Developer of Experimental Design and ANOVA
  • 6. The three basic principles of Experimental Design • Apply the following principles to best attain the objectives of experimental design – Replication – Local control or Blocking – Randomization
  • 7. 1. Replication • Each treatment must be applied independently to several experimental units. • Provides the means to estimate the EE variance in the absence of systematic differences among EUs treated alike which is important because treatment differences are judged against the EE variance. • Provides the capacity to increase the precision for estimates of treatment means. • By itself, does not guarantee valid estimates of EE or treatment differences.
  • 8. Biological vs Technical Replicates σB 2 σA 2 σe 2 @ Nature reviews & G. Churchill (2002)
  • 9. Replication vs Pooling • mRNA from different samples are often combined to form a ``pooled-sample’’ or pool. Why? – If each sample doesn’t yield enough mRNA – To compensate an excess of variability  ? • Statisticians tend not to like it but pooling may be OK if properly done – Combine several samples in each pool – Use several pools from different samples – Do not use pools when individual information is important (e.g.paired designs)
  • 10. Examples of “pooling” • Study with 12 patients  12 chips  Expensive – Optiob 1: • Group A: 6 individuals  1 pool of 6  1 chip • Group B: 6 individuals  1 pool of 6  1 chip – Option 2: • Group A: 12 individuals  4 pools of 3  4 chip • Grupo B: 12 individuals  4 pools of 3  4 chip – Option 2 may be cheaper and, at the samae time have similar precisio However, without having information about variability within pools and between individuals it cannot be assured 
  • 11. Local Control • Group EUs so that the variability of units within the groups is less than that among all units prior to grouping  – Differences among treatments are not confused with differences among experimental units. – EE is reduced by the variability associated with environmental differences among groups of units. – Effects of nuisance factors which contribute systematic variation to the differences among EUs can be eliminated. – Analysis is more sensitive.
  • 12. Confounding block with treatment effects Awful design Balanced design Sample Treatment Sex Batch Sample Treatment Sex Batch 1 A Male 1 1 A Male 1 2 A Male 1 2 A Female 2 3 A Male 1 3 A Male 2 4 A Male 1 4 A Female 1 5 B Female 2 5 B Male 1 6 B Female 2 6 B Female 2 7 B Female 2 7 B Male 2 8 B Female 2 8 B Female 1 • Two alternative designs to investigate treatment effects – Left: Treatment effects confounded with Sex and Batch effect – Right: Treatments are balanced between blocks • Influence of blocks is automatically compensated • Statistical analysis may separate block from treatment efefect
  • 13. 3. Randomisation • Randomly assigning samples to groups to eliminate unspecific disturbances – Randomly assign individuals to treatments. – Randomise order in which experiments are performed. • Randomisation required to – ensure validity of statistical procedures. – Lead to unbiased estimates of variances and unbiased estimates of treatment differences, – Simulates the effects of independence among EUs that are otherwise controlled, selected, and monitored.
  • 14. Allocating samples to treatments • A key point in any experiment is the way that experimental units are allocated to treatments – It must be chosen so that random variability is as small as possible – It must be chosen so that the best local control is achieved. – It implicitly defines the analysis model, so it must be chosen so that the analysis can be performed and validity conditions hold.
  • 16. Efecto Batch en Microarrays Diferencias/variaciones no Solemos conocer la fuente biológicas observadas en pero no siempre se podrá experimentos de cuantificar y/o eliminar!!! microarrays No suele invalidar el expeimento aunque si añade una cantidad de ruído no cuantificable Origen: •Técnico que procesa las muestras •Amplificación •Lote del kit de tinción •Reparto de muestras en las tandas de amplificación •Kit de amplificación....
  • 17. Técnico que procesa las muestras Técnico 1: procesa muestras control Técnico 2: procesa muestras problema Técnico 1: procesa muestras control y problema Técnico 2: procesa muestras problema y control SOLUCION Técnico 1 y 2 no comparten proyecto
  • 18. Reparto de muestras en las tandas de amplificación 12 muestras máximo por tanda de amplificación Proyectos n>12 muestras se han de repartir en diferentes tandas de amplificación Tanda 1: Controles Tanda 2: muestras problema SOLUCION Tanda 1: se procesan muestras control y problema Tanda 2: se procesan muestras problema y control
  • 19. Lote del Kit de tinción Sondas se marcan con Va perdiendo intensidad con el tiempo ficoeritrina Hibridar cada tanda de 12 muestras SOLUCION Esperar a tener todas las muestras preparadas e hibridarlas todas a la vez
  • 20. Eliminación del efecto batch • Con un diseño experimental apropiado el efecto batch se puede eliminar o atenuar • de forma implícita balanceando las muestras entre distinos lotes • de forma explícita estimando los efectos del batch y substrayéndolos de los valores originales. • Si el diseño no es adecuado, (e.g. hay CONFUSIÓN entre lote y tratamientos) no se podrá hacer nada. • Incluso con un buen diseño no se puede realizar la eliminación de muchos efectos batch de forma indefinida, porque cada vez se pierde más potencia estadística. • Es fácil que al final tengamos que aceptar algún efecto batch.
  • 21. EJEMPLOS-1 Efecto del kit de marcaje
  • 22. EJEMPLOS-2 Efecto batch de nacimiento fileName Camada Grupo ShortName Colores E39+_-.CEL 1 1 E39pm11 yellow E39+_+.CEL 1 2 E39pp21 green E40+_-.CEL 2 1 E40pm12 yellow E40+_+.CEL 2 2 E40pp22 green E41+_-.CEL 3 1 E41pm23 yellow E41+_+.CEL 3 2 E41pp13 green E42+_-.CEL 4 1 E42pm24 yellow E42+_+.CEL 4 2 E42pp14 green
  • 25.
  • 26. In summary • Good experimental design is essential to perform good experiments. • Experimental design means planning ahead – Should be done before the experiment starts – Should consider all the steps: from sampling to data analysis. • Not a question of "statistical snobism" but of saving time and money and of doing good science
  • 27. Basic aspects of qPCR data analysis
  • 28. Outline • Common types of qPCR data analyses • Biostatistical aspects of relative quantification • Confirmatory and exploratory statistical analysis.
  • 29. Real time qPCR data • RT-qPCR data are CT or threshold cycle values. – CT= Cycle number at which detectable signal is achieved. – The Lower/higher the CT Larger/Smaller amount of starting material
  • 30. Basic types of RT-qPCR analysis • Two basic types of analysis – Absolute quantification – Relative quantification • Choice based on – Experimental goals – Available resources
  • 31. Absolute quantification • Use absolute quantification… – To understand properties that are intrinsic to a given sample. – To answer the question "how many"? • Examples of applications – Chromosome or gene copy number determination – Viral load measurements
  • 32. Standard curve • Absolute quantification is achieved by comparing CT values of each sample to a standard curve, which is obtained by – Using different known amounts of sample – For which CT is calculated – And plotted vs the (log) (known) quantity
  • 34. Example: determining absolute copy number from absolute quantification • The standard curve is used only for interpolation but not for extrapolation (relation may not be linear outside the limits tested).
  • 35. Absolute vs Relative quantifications • Absolute quantification answers the question "how many" but gives no information about change. • Relative quantification can be used to – Compare levels or changes in gene expression. – Answer the question – What is the fold difference?
  • 36. Relative quantification methods • For absolute quantification one requires a standard template with several known concentrations to build the curve. • For relative quantification one needs to apply some form of normalization, that is one has to transform the data in order to – Remove possible experimental biases – Make data from different samples/groups comparable so that the term "relative" keeps its meaning.
  • 38. Normalization against a reference gene • Benefit: – Circumvents need for accurate quantification of starting material • Drawback: – Requires known reference genes with stable expression levels
  • 40. Most common approaches • Livak or ∆∆CT method • The ∆CT method against a reference gene • The Pfaffl method
  • 43. Other methods • Although Livak method is the most used • The ∆CT method yields equivalent results but is simpler to calculate. • The Pfaffl method is preferable when reaction efficiencies of the target and reference are not similar.
  • 44. Biostatistical aspects of relative quantification
  • 45. Biostatistical analysis • Two main types of analyses – Comparative analyses, • Relatively rigorous • Check a predefined hypotheses • Relies on statistical testing – Expression profiling: Search for trends and patterns in the data • Exploratory, hypothesis generating approach • Less rigorous • Cluster analysis or PCA
  • 48. Three basic premises • Statistical analyses of RT-qPCR data relies on three assumptions – One gene-at-a-time – We are sampling from two different (unknown) independent populations – There exist unknown mechanisms that contribute to variability.
  • 49. From assumptions to strategies (1) • Use random sampling and randomization to obtain independent and representative samples.
  • 50. From assumptions to strategies (2) • Apply experimental design principles to minimize confounding variability
  • 51. From assumptions to strategies (3) • Perform statistical testing • DO NOT FORGET about multiple testing adjustments
  • 52. Statistical analysis • Standard statistical approach: Confirmatory study- Reject or accept predefined hypothesis
  • 54. Comparing more than two groups
  • 55. Exploratory statistical analysis • If instead of confirming hypothesis we want to generate them (finding patterns in data)
  • 57. Software for the analysis • ABI – DataAssist • Biogazelle – REST • Bio-Rad – GENEX (Gene expression macro) • Multid – GenEx • Bioconductor – HTqPCR • Integromics – StatMiner
  • 58. Introduction to microarray data analysis
  • 59. Esquema de la presentación  Introducción y objetivos  Análisis de datos de microarrays  Tipos de datos y Tipos de estudios. Herramientas.  El proceso de análisis. Ejemplos  Críticas, consensos, consejos y “estado del arte”  Críticas a los microarrays  Consensos y consejos (“dos and don’ts”)  MAQC-I, MAQC-II  De los microarrays al diagnóstico  ¿Porque está siempre por llegar?
  • 60. Para aprender más … http://www.ub.es/stat/docencia/bioinformatica/microarrays/ADM/
  • 65. Y muchos más …  Time Course  Perfiles de expresión a lo largo del tiempo  Pathway Analysis-(Systems Biology)  Reconstrucción de redes metabólicas a partir de datos de expressión  Whole Genome, CGH, Alternative Splicing  Estudios con datos de distintos tipos  Fusión o Integración de datos
  • 66. Herramientas para el análisis
  • 67. Programas de análisis de datos  Multitud de herramientas  Gratuítas / Comerciales  [R, BRB, MeV, dChip…] / [Partek, GeneSpring, Ingenuity]  Descargables / En-linea  [R, BRB, MeV…] / [Gepas,…]  Aísladas / Parte de “suites” o de sitios  [BRB, dChip] / [MeV (TM4), OntoTools]  A survey of free microarray data analysis tools:  http://chagall.med.cornell.edu/I2MT/MA-tools.pdf
  • 68. Programas de análisis libres Programa   R/Bioconductor Potente, flexible, Consola, difícil de actualizado, dominar Unix/Windows/Mac BRB tools Basado en Excel, Si falla, falla. User-friendly Difícil de extender dChip Expresión & SNP’s Solo Windows User-frinedly Pocas opciones Babelomics Web-based, Web-based Multiples opciones, Manejo algo rígido Buen material …
  • 69. Babelomics: Viaje al conocimiento
  • 70. Programas de análisis comerciales Programa   geneSpring Muy extendido ANOVA limitados Gráficos potentes CARO Extensible (R) Partek ANOVA muy potente Sólo estadística “clásica” Mult. tipos de datos No extensible. Caro Visualización 3D Ingenuity BD de anotaciones Centrada mayormente en Análisis de redes y de datos de cáncer. significación biológica Caro. …
  • 71. El proceso de análisis
  • 72. Análisis de un experimento con microarrays (1) Imágenes (Datos crudos) (2) C. de calidad (bajo nivel) (3) Preprocesado (4) Exploración de la Matriz de Expresión (5) Análisis (6) Significación Biológica
  • 73. (0) Diseño experimental • Variabilidad – Sistemática • Calibrar/Normalizar – Aleatoria • Diseño Experimental • Inferencia • Decidir acerca de Awful design :-( Balanced design :-) – Réplicas, Sample 1 Treatment Sex A Male Batch 1 Sample 1 Treatment Sex A Male – Lotes (“Batch effect”) 2 3 A A Male Male 1 1 2 3 A A Female Male – Pools … 4 A Male 1 4 A Female 5 B Female 2 5 B Male 6 B Female 2 6 B Female 7 B Female 2 7 B Male 8 B Female 2 8 B Female
  • 74. (1) Obtención de la imagen … • Entra: Microarrays • Salen: – Imágenes (1/chip) – Ficheros de imagen • Información para cada sonda individual • Datos para el análisis de bajo nivel … – Control de calidad – Preprocesado 1.cel, 1.chp 2.cel, 2.chp – Sumarización
  • 75. (2) Control de calidad de bajo nivel • Entra: … – Imágenes (.CEL, ...) 1.cel, 1.chp 2.cel, 2.chp • Proceso – Diagnósticos y Control de calidad – Análisis basado en modelos (PLM) • Salen: – Gráficos – Estadísticos de control de calidad
  • 76. (3) Preprocesado … • Entra: – Fichero de Imágenes 1.cel, 1.chp 2.cel, 2.chp (datos del escaner) • Proceso – Eliminación de ruido – Normalización – Sumarización C01-001.CEL C02-001.CEL C03- – Filtrado • Sale: 001.CEL 1415670_at 8.954387 9.088924 8.833863 1415671_at 10.700876 10.639307 10.610953 – Matriz de expresión 1415672_at 10.377266 10.510106 10.461701 1415673_at 7.320335 7.252635 7.112313 1415674_a_at 8.381129 8.332256 8.393718 1415675_at 8.120937 8.082713 8.051514 1415676_a_at 10.322229 10.287371 10.282812 1415677_at 9.038344 8.979641 8.905711
  • 77. (4) Exploración C01-001.CEL C02-001.CEL C03-001.CEL 1415670_at 1415671_at 8.954387 10.700876 9.088924 10.639307 8.833863 10.610953 • Entra 1415672_at 1415673_at 10.377266 7.320335 10.510106 7.252635 10.461701 7.112313 – Matriz de expresión • Proceso 1415674_a_at 8.381129 8.332256 8.393718 1415675_at 8.120937 8.082713 8.051514 1415676_a_at 10.322229 10.287371 10.282812 1415677_at 9.038344 8.979641 8.905711 – PCA, Cluster, MDS – Representaciones en 2D/3D – Agrupaciones • Sale – Detectado efectos batch – Verificación calidad
  • 78. (5) Análisis estadístico (i): Selección de genes diferencialmente expresados 1415670_at C01-001.CEL 8.954387 C02-001.CEL C03-001.CEL 9.088924 8.833863 • Entra: – Matriz expresión 1415671_at 10.700876 10.639307 10.610953 1415672_at 10.377266 10.510106 10.461701 1415673_at 7.320335 7.252635 7.112313 1415674_a_at 1415675_at 8.381129 8.120937 8.332256 8.082713 8.393718 8.051514 – Modelo de análisis • Proceso 1415676_a_at 10.322229 10.287371 10.282812 1415677_at 9.038344 8.979641 8.905711 – t-tests, ANOVA • Ajustes de p-valores • Sale – Listas de genes • Fold change, p.values ProbeSet gene ID logFC t P.Value adj.P.Val B 1450826_a_at Saa3 1450826_a_at 4,911 63,544 6,21E-14 2,80E-10 22,244 1457644_s_at Cxcl1 1457644_s_at 4,286 53,015 3,52E-13 7,69E-10 20,791 1415904_at Lpl 1415904_at -4,132 -50,455 5,66E-13 7,69E-10 20,373 – Gráficos 1449450_at Ptges 1449450_at 5,164 49,483 6,82E-13 7,69E-10 20,207 1419209_at Cxcl1 1419209_at 5,037 47,175 1,08E-12 9,71E-10 19,794 1416576_at Socs3 1416576_at 3,372 42,107 3,19E-12 2,08E-09 18,784 1450330_at Il10 1450330_at 4,519 42,056 3,23E-12 2,08E-09 18,773 1455899_x_at Socs3 1455899_x_at 3,648 40,821 4,29E-12 2,12E-09 18,502 – Perfiles de expresión 1419681_a_at Prok2 1419681_a_at 3,709 40,645 4,48E-12 2,12E-09 18,463 1436555_at Slc7a2 1436555_at 3,724 40,081 5,12E-12 2,12E-09 18,335
  • 79. (5) Análisis estadístico (ii): Construcción & validación de un predictor • Entra: – Matriz expresión • Proceso – Selección variables – Ajuste modelo – Validación • Sale – Modelos predictivos – Medidas de fiabilidad /reproducibilidad
  • 80. (6) Significación biologica ProbeSet gene ID logFC 1450826_a_at Saa3 1450826_a_at 4,911 1457644_s_at Cxcl1 1457644_s_at 4,286 1415904_at Lpl 1415904_at -4,132 1449450_at 1419209_at Ptges Cxcl1 1449450_at 1419209_at 5,164 5,037 • Entra 1416576_at Socs3 1416576_at 3,372 1450330_at 1455899_x_at Il10 Socs3 1450330_at 1455899_x_at 4,519 3,648 – Listas de genes 1419681_a_at Prok2 1419681_a_at 3,709 1436555_at Slc7a2 1436555_at 3,724 • Proceso – GEA, GSEA, … • Sale: – Clases GO / Grupos de Genes Pathways especialmente representados
  • 81. Ejemplo de análisis de datos Comparación de perfiles de expresión entre tumores BRCA1/BRCA2 y Construcción de un predictor que permita distinguir entre ambos.
  • 82. Fuente del ejemplo  Gene Expression Profiles in Hereditary Breast Cancer • Hedenfalk, I, et. al., NEJM, Vol. 344, No. 8, pp 539-548.  Objetivo: Encontrar un predictor basado en perfiles de expresión para diferenciar tumores asociados a BRCA1 y BRCA2
  • 83. Esquema del análisis • Diseño experimental y datos para el análisis • Preprocesado • Exploración • Selección de genes • Construcción de varios predictores y selección del más apropiado
  • 84. Diseño experimental Patie BRCA1 v nt PI BRCA2 v • RNA extraido de Array D Sporadic s1321 20 Sporadic – 7 pacientess. BRCA1 s1996 1 BRCA1 – 8 pacients BRCA2 s1822 5 BRCA1 – 7 con cancer “esporádico” s1714 3 BRCA1 • 6512 sondas s1224 7 BRCA1 s1252 2 BRCA1 – 5361 genes s1510 4 BRCA1 • 3226 retenidos para el s1900 10 BRCA2 análisis s1787 9 BRCA2 • Diseño de referencia s1721 8 BRCA2 s1486 22 BRCA2 – Cada muestra comparada s1572 16 Sporadic contra linea celular no s1324 17 Sporadic tumorgénica (MCF-104) s1649 15 Sporadic s1320 18 Sporadic s1542 19 Sporadic s1281 21 Sporadic s1905 6 BRCA1 s1816 13 BRCA2
  • 89. Análisis (1). Selección de genes (class comparison) • BRCA1 vs noBRCA1 • Usamos un t-test y un cutoff de 0.0001 – es decir declaramos diferencialmenete expresados los genes cuyo p-valor sea inferior a 0.0001 • No hacemos ajustes – Mínimo FC – Multiple testing
  • 90. Resultados (1): Lista de genes Parametric Order p-value FDR Fold-change Unique id Description Clone 1 1.66e-05 0.0198 2.24 HV34H7 ESTs 247818 2 2.17e-05 0.0198 2.03 UG5G3 minichromosome maintenance deficient (S. cerevisiae) 7 46019 3 2.3e-05 0.0198 0.31 HV17G6 keratin 8 897781 4 3.37e-05 0.0198 1.89 HV18E8 SELENOPHOSPHATE SYNTHETASE ; Human selenium donor protein 840702 5 3.63e-05 0.0198 2.21 HV32C7 ESTs 307843 6 4.32e-05 0.0198 1.57 UG1F1 very low density lipoprotein receptor 26082 7 4.5e-05 0.0198 1.67 HV24F5 chromobox homolog 3 (Drosophila HP1 gamma) 566887 8 4.92e-05 0.0198 2.02 LO3F1 butyrate response factor 1 (EGF-response factor 1) 366647 9 9.43e-05 0.0338 1.85 HV9E3 "tumor protein p53-binding protein, 2" 212198
  • 91. Análisis (2): Construcción de un predictor • Construímos predictores por 6 métodos distintos. • Genes candidatos por class-comparison. • Elegimos el que presente menor tasa de error de predicción (estimada por leave one out)
  • 92. Resumiendo…  El análisis de microarrays puede visualizarse como un proceso.  Es importante conocer  Los métodos apropiados para cada problrma,  los parámetros, el significado, las limitaciones de cada paso.  Una aplicación adecuada del proceso proporciona información relevante como...  una lista de genes diferencialmente expresados (biomarcadores).  un modelo con capacidad de predecir (firma)
  • 93. Limitaciones del método Críticas, consejos, consensos y “estado del arte”
  • 94. Limitaciones de los microarrays
  • 95. An array of problems? • Poca reproducibilidad entre estudios – Poca coincidencia entre las listas de genes – No reproducción de las predicciones en nuevos conjuntos de test • Falta de estándares • Falta de consenso en los métodos • El paso a la clínica siempre por llegar • Mediados de la década: ¿Promesa o realidad?
  • 96. Que no estamos tan mal...
  • 97. Algunos consensos (Allison 2006) • Diseño – Biological replication is essential – There is strength in numbers: power & sample size – Pooling biological samples can be useful • Seleccion de genes diferencialmente expresados – Using FC alone as a differential expression test is not valid – 'Shrinkage' is a good thing – FDR is a good alternative to conventional multiple-testing approaches • Clasificación y Predicción – Unsupervised classification is overused – Unsupervised classification should be validated using resampling- – Supervised-classification requires independent cross-validation
  • 98. No todos los estudios se hacen bien... • Dupuy & Simon estudian 90 publicaciones. – Análisis detallado de los métodos usados en 42. • Ecuentran algunos errores comunes – Objetivos pobremente definidos. – No hay control de la multiplicidad 104 genes  104 tests  P(Falso+) muy alta – Ni se informa bien de la fiabilidad de un predictor. – No se utiliza un conjunto de test independiente. – Se abusa por doquier del análisis de clusters.
  • 99. Aunque es posible hacerlo bien si... • Se procura... (do’s) • Se evita... (don’t) – Definir bien objetivos. – Basar la selección tan – Combinar el p-valor y sólo en “Fold Change” el FC al seleccionar – Usar p-valores de 0.05 genes. – Usar métodos de cluster – Usar la FDR para el si lo que se deseara es control de clasificar muestras. multiplicidad. – Violar el principio básico – Validar un predictor de la validación (no debe con un conjunto de usarse el cjto de prueba prueba independiente. antes de la validación). – Contar con un estadístico ... Hasta 40 “do’s” y “don’ts” en la tabla 3 de Dupuy y Simon (JNCI 99 (2): 147-157).
  • 100. Resumiendo • Los microarrays tienen algunas limitaciones –razonables e intrínsecas- • Un adecuado uso de los métodos de análisis puede generar información útil, fiable y reproducible. • Aún así el paso de la clínica al diagnóstico es más lento de lo que se esperaba. ¿Por qué?
  • 101. De la investigación básica a los diagnóstico basados en microarrays ¿Para cuando?
  • 102. La idea está clara...
  • 103. Pero hay muy pocos kits de diagnóstico...
  • 104. Algunas de las dificultades • Se precisan estudios muy grandes para establecer la potencia de un (kit) diagnóstico y validarlo en una cohorte independiente y suficientemente amplio. • Hacen falta estandarizaciones y sistemas de control de calidad validados según criterios de laboratorios clínicos. • Los tests de perfiles de expresión han de cumplir las normas de la Agencia Médica Europea y/o la FDA. • Para justificar su desarrollo hay que hacer estudios de coste efectividad que sugieran una clara mejora en el tratamiento al paciente y retorno de inversión y beneficios en el medio/largo plazo.
  • 105. Estado de los diagnósticos basados en microarrays Lleno: , Vacío: 
  • 106. Resumiendo • Se espera que la creciente calidad y tamaño de los estudios genere nuevos perfiles de expresión transportables al diagnóstico. • Aspectos como estandarización y automatización (robótica) para minimizar la intervención humana están cada vez mejor. • Otros como la regulación por parte de las agencias y las políticas de reembolso a los inversores y los laboratorios deben de irse resolviendo. • No es improbable un futuro en el que el “lab-on-a- chip” forme parte de las herramientas de los clínicos.