Statistical analysis of       gene expression data                Alex SánchezUnitat dEstadística i Bioinformàtica (VHIR) ...
Who, where, what?
Outline• Basic principles of experimental design• Analysis of RT-qPCR data• The microarray data analysis process
Basic principles ofExperimental Design
And Fisher said…To consult the statistician after anexperiment is finished is often merelyto ask him to conduct a post mor...
The three basic principles of           Experimental Design• Apply the following principles to best  attain the objectives...
1. Replication• Each treatment must be applied independently  to several experimental units.• Provides the means to estima...
Biological vs Technical           ReplicatesσB 2σA 2σe 2                 @ Nature reviews & G. Churchill (2002)
Replication vs Pooling• mRNA from different samples are often combined to form  a ``pooled-sample’’ or pool. Why?   – If e...
Examples of “pooling”• Study with 12 patients  12 chips  Expensive   – Optiob 1:      • Group    A: 6 individuals  1 po...
Local Control• Group EUs so that the variability of units  within the groups is less than that among all  units prior to g...
Confounding block with treatment effects                    Awful design                           Balanced design    Samp...
3. Randomisation• Randomly assigning samples to groups to  eliminate unspecific disturbances  – Randomly assign individual...
Allocating samples to treatments• A key point in any experiment is the  way that experimental units are  allocated to trea...
Scary stories: batch effects
Efecto Batch en Microarrays Diferencias/variaciones no                  Solemos conocer la fuente biológicas observadas en...
Técnico que procesa las muestrasTécnico 1: procesa muestras controlTécnico 2: procesa muestrasproblemaTécnico 1: procesa m...
Reparto de muestras en las tandas de amplificación  12 muestras máximo por tanda de  amplificación  Proyectos n>12 muestra...
Lote del Kit de tinciónSondas se marcan con              Va perdiendo intensidad con el tiempoficoeritrina      Hibridar c...
Eliminación del efecto batch     • Con un diseño experimental apropiado el efecto batch se       puede eliminar o atenuar ...
EJEMPLOS-1   Efecto del kit de marcaje
EJEMPLOS-2                 Efecto batch de nacimiento      fileName    Camada           Grupo     ShortName   Colores     ...
SIN CORREGIR
CORREGIDO
In summary• Good experimental design is essential to  perform good experiments.• Experimental design means planning  ahead...
Basic aspects ofqPCR data analysis
Outline• Common types of qPCR data analyses• Biostatistical aspects of relative  quantification• Confirmatory and explorat...
Real time qPCR data• RT-qPCR data are CT or threshold cycle values.  – CT= Cycle number at which detectable signal is achi...
Basic types of RT-qPCR analysis• Two basic types of analysis  – Absolute quantification  – Relative quantification• Choice...
Absolute quantification• Use absolute quantification…  – To understand properties that are intrinsic    to a given sample....
Standard curve• Absolute quantification is achieved by  comparing CT values of each sample to a  standard curve, which is ...
Standard Calibration Curve
Example: determining absolute copy      number from absolute quantification• The standard curve is used only for interpola...
Absolute vs Relative quantifications• Absolute quantification answers the  question "how many" but gives no  information a...
Relative quantification methods• For absolute quantification one requires a  standard template with several known  concent...
Normalization against a unit mass
Normalization against a reference gene• Benefit:  – Circumvents need for accurate    quantification of starting material• ...
Required CT values
Most common approaches• Livak or ∆∆CT method• The ∆CT method against a reference  gene• The Pfaffl method
Livak method (1)
Livak method (2)
Other methods• Although Livak method is the most used• The ∆CT method yields equivalent results  but is simpler to calcula...
Biostatistical aspects of relative quantification
Biostatistical analysis• Two main types of analyses  – Comparative analyses,    • Relatively rigorous    • Check a predefi...
Relative quantification
Expression profiling
Three basic premises• Statistical analyses of RT-qPCR data  relies on three assumptions  – One gene-at-a-time  – We are sa...
From assumptions to strategies (1)• Use random sampling and randomization to  obtain independent and representative samples.
From assumptions to strategies (2)• Apply experimental design principles to minimize  confounding variability
From assumptions to strategies (3)• Perform statistical testing• DO NOT FORGET about multiple testing adjustments
Statistical analysis• Standard statistical approach: Confirmatory study-  Reject or accept predefined hypothesis
Comparing two groups…
Comparing more than two groups
Exploratory statistical analysis• If instead of confirming hypothesis we want to  generate them (finding patterns in data)
Multivariate methods forexploratory data analysis
Software for the analysis• ABI   – DataAssist• Biogazelle   – REST• Bio-Rad   – GENEX (Gene expression macro)• Multid   – ...
Introduction to microarray       data analysis
Esquema de la presentación Introducción y objetivos Análisis de datos de microarrays    Tipos de datos y Tipos de estud...
Para aprender más …http://www.ub.es/stat/docencia/bioinformatica/microarrays/ADM/
Tipos de estudios
(1): Class comparison
(2): Class discovery
(3): Class prediction
Y muchos más … Time Course    Perfiles de expresión a lo largo del tiempo Pathway Analysis-(Systems Biology)    Recons...
Herramientas para el análisis
Programas de análisis de datos Multitud de herramientas    Gratuítas / Comerciales     [R, BRB, MeV, dChip…] / [Partek,...
Programas de análisis libresPrograma                                              R/Bioconductor    Potente, flexible,  ...
Babelomics: Viaje al conocimiento
Programas de análisis comercialesPrograma                                           geneSpring    Muy extendido         ...
El proceso de análisis
Análisis de un experimento con microarrays                             (1) Imágenes                             (Datos cru...
(0) Diseño experimental                                                                           • Variabilidad          ...
(1) Obtención de la imagen                     …            • Entra: Microarrays                                  • Salen:...
(2) Control de calidad de bajo nivel                                  • Entra:                              …    – Imágene...
(3) Preprocesado                                          …           • Entra:                                            ...
(4) Exploración           C01-001.CEL   C02-001.CEL C03-001.CEL1415670_at1415671_at                8.954387               ...
(5) Análisis estadístico (i):                    Selección de genes diferencialmente expresados  1415670_at             C0...
(5) Análisis estadístico (ii):Construcción & validación de un predictor                            • Entra:               ...
(6) Significación biologica  ProbeSet           gene        ID        logFC1450826_a_at   Saa3         1450826_a_at      4...
Ejemplo de análisis de datos    Comparación de perfiles de expresión       entre tumores BRCA1/BRCA2 y      Construcción d...
Fuente del ejemplo Gene Expression Profiles in Hereditary  Breast Cancer• Hedenfalk, I, et. al., NEJM, Vol. 344,  No. 8, ...
Esquema del análisis•   Diseño experimental y datos para el    análisis•   Preprocesado•   Exploración•   Selección de gen...
Diseño experimental Patie         BRCA1 v  nt     PI    BRCA2 v     • RNA extraido deArray    D      Sporadic s1321   20  ...
Datos: log ratios
Preprocesado:Filtrado y Normalización
Exploración (1)
Exploración (2)
Análisis (1). Selección de genes       (class comparison)                  • BRCA1 vs noBRCA1                  • Usamos un...
Resultados (1): Lista de genes        ParametricOrder      p-value    FDR      Fold-change   Unique id                    ...
Análisis (2):Construcción de un predictor                • Construímos                  predictores por 6                 ...
Resumiendo… El análisis de microarrays puede visualizarse  como un proceso. Es importante conocer  Los métodos apropiad...
Limitaciones del métodoCríticas, consejos, consensos y        “estado del arte”
Limitaciones de los microarrays
An array of problems?• Poca reproducibilidad entre estudios  – Poca coincidencia entre las listas de genes  – No reproducc...
Que no estamos tan mal...
Algunos consensos                    (Allison 2006)• Diseño   – Biological replication is essential   – There is strength ...
No todos los estudios se            hacen bien...• Dupuy & Simon estudian 90 publicaciones.  – Análisis detallado de los m...
Aunque es posible hacerlo bien si...    • Se procura... (do’s)                       • Se evita... (don’t)         – Defin...
Resumiendo• Los microarrays tienen algunas  limitaciones –razonables e intrínsecas-• Un adecuado uso de los métodos de  an...
De la investigación básica a losdiagnóstico basados en microarrays          ¿Para cuando?
La idea está clara...
Pero hay muy pocos kits de diagnóstico...
Algunas de las dificultades• Se precisan estudios muy grandes para establecer la  potencia de un (kit) diagnóstico y valid...
Estado de los diagnósticos basados en             microarrays           Lleno: ,    Vacío: 
Resumiendo• Se espera que la creciente calidad y tamaño de los  estudios genere nuevos perfiles de expresión  transportabl...
Course VHIR-UCTS-UEB - Session 3 -  Statistical Analysis
Upcoming SlideShare
Loading in …5
×

Course VHIR-UCTS-UEB - Session 3 - Statistical Analysis

791 views

Published on

High throughput technologies in Genomics - Tecnologías de alto rendimiento en genómica.

Session 3: Statistical Analysis

Course held at Vall d'Hebron Research Institute (VHIR), in Barcelona, Catalonia, Spain, on October 5th, 2011.

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
791
On SlideShare
0
From Embeds
0
Number of Embeds
169
Actions
Shares
0
Downloads
10
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Course VHIR-UCTS-UEB - Session 3 - Statistical Analysis

  1. 1. Statistical analysis of gene expression data Alex SánchezUnitat dEstadística i Bioinformàtica (VHIR) Statistics Department (UB)
  2. 2. Who, where, what?
  3. 3. Outline• Basic principles of experimental design• Analysis of RT-qPCR data• The microarray data analysis process
  4. 4. Basic principles ofExperimental Design
  5. 5. And Fisher said…To consult the statistician after anexperiment is finished is often merelyto ask him to conduct a post mortemexamination.He can perhaps say what the experimentdied of. Sir Ronald A. Fisher Father of modern Mathematical Statistics and Developer of Experimental Design and ANOVA
  6. 6. The three basic principles of Experimental Design• Apply the following principles to best attain the objectives of experimental design – Replication – Local control or Blocking – Randomization
  7. 7. 1. Replication• Each treatment must be applied independently to several experimental units.• Provides the means to estimate the EE variance in the absence of systematic differences among EUs treated alike which is important because treatment differences are judged against the EE variance.• Provides the capacity to increase the precision for estimates of treatment means.• By itself, does not guarantee valid estimates of EE or treatment differences.
  8. 8. Biological vs Technical ReplicatesσB 2σA 2σe 2 @ Nature reviews & G. Churchill (2002)
  9. 9. Replication vs Pooling• mRNA from different samples are often combined to form a ``pooled-sample’’ or pool. Why? – If each sample doesn’t yield enough mRNA – To compensate an excess of variability  ?• Statisticians tend not to like it but pooling may be OK if properly done – Combine several samples in each pool – Use several pools from different samples – Do not use pools when individual information is important (e.g.paired designs)
  10. 10. Examples of “pooling”• Study with 12 patients  12 chips  Expensive – Optiob 1: • Group A: 6 individuals  1 pool of 6  1 chip • Group B: 6 individuals  1 pool of 6  1 chip – Option 2: • Group A: 12 individuals  4 pools of 3  4 chip • Grupo B: 12 individuals  4 pools of 3  4 chip – Option 2 may be cheaper and, at the samae time have similar precisio However, without having information about variability within pools and between individuals it cannot be assured 
  11. 11. Local Control• Group EUs so that the variability of units within the groups is less than that among all units prior to grouping  – Differences among treatments are not confused with differences among experimental units. – EE is reduced by the variability associated with environmental differences among groups of units. – Effects of nuisance factors which contribute systematic variation to the differences among EUs can be eliminated. – Analysis is more sensitive.
  12. 12. Confounding block with treatment effects Awful design Balanced design Sample Treatment Sex Batch Sample Treatment Sex Batch 1 A Male 1 1 A Male 1 2 A Male 1 2 A Female 2 3 A Male 1 3 A Male 2 4 A Male 1 4 A Female 1 5 B Female 2 5 B Male 1 6 B Female 2 6 B Female 2 7 B Female 2 7 B Male 2 8 B Female 2 8 B Female 1• Two alternative designs to investigate treatment effects – Left: Treatment effects confounded with Sex and Batch effect – Right: Treatments are balanced between blocks • Influence of blocks is automatically compensated • Statistical analysis may separate block from treatment efefect
  13. 13. 3. Randomisation• Randomly assigning samples to groups to eliminate unspecific disturbances – Randomly assign individuals to treatments. – Randomise order in which experiments are performed.• Randomisation required to – ensure validity of statistical procedures. – Lead to unbiased estimates of variances and unbiased estimates of treatment differences, – Simulates the effects of independence among EUs that are otherwise controlled, selected, and monitored.
  14. 14. Allocating samples to treatments• A key point in any experiment is the way that experimental units are allocated to treatments – It must be chosen so that random variability is as small as possible – It must be chosen so that the best local control is achieved. – It implicitly defines the analysis model, so it must be chosen so that the analysis can be performed and validity conditions hold.
  15. 15. Scary stories: batch effects
  16. 16. Efecto Batch en Microarrays Diferencias/variaciones no Solemos conocer la fuente biológicas observadas en pero no siempre se podrá experimentos de cuantificar y/o eliminar!!! microarrays No suele invalidar el expeimento aunque si añade una cantidad de ruído no cuantificable Origen: •Técnico que procesa las muestras •Amplificación •Lote del kit de tinción •Reparto de muestras en las tandas de amplificación •Kit de amplificación....
  17. 17. Técnico que procesa las muestrasTécnico 1: procesa muestras controlTécnico 2: procesa muestrasproblemaTécnico 1: procesa muestras control y problemaTécnico 2: procesa muestras problema y controlSOLUCIONTécnico 1 y 2 no compartenproyecto
  18. 18. Reparto de muestras en las tandas de amplificación 12 muestras máximo por tanda de amplificación Proyectos n>12 muestras se han de repartir en diferentes tandas de amplificación Tanda 1: Controles Tanda 2: muestras problemaSOLUCION Tanda 1: se procesan muestras control y problema Tanda 2: se procesan muestras problema y control
  19. 19. Lote del Kit de tinciónSondas se marcan con Va perdiendo intensidad con el tiempoficoeritrina Hibridar cada tanda de 12 muestrasSOLUCION Esperar a tener todas las muestras preparadas e hibridarlas todas a la vez
  20. 20. Eliminación del efecto batch • Con un diseño experimental apropiado el efecto batch se puede eliminar o atenuar • de forma implícita balanceando las muestras entre distinos lotes • de forma explícita estimando los efectos del batch y substrayéndolos de los valores originales. • Si el diseño no es adecuado, (e.g. hay CONFUSIÓN entre lote y tratamientos) no se podrá hacer nada. • Incluso con un buen diseño no se puede realizar la eliminación de muchos efectos batch de forma indefinida, porque cada vez se pierde más potencia estadística. • Es fácil que al final tengamos que aceptar algún efecto batch.
  21. 21. EJEMPLOS-1 Efecto del kit de marcaje
  22. 22. EJEMPLOS-2 Efecto batch de nacimiento fileName Camada Grupo ShortName Colores E39+_-.CEL 1 1 E39pm11 yellow E39+_+.CEL 1 2 E39pp21 green E40+_-.CEL 2 1 E40pm12 yellow E40+_+.CEL 2 2 E40pp22 green E41+_-.CEL 3 1 E41pm23 yellow E41+_+.CEL 3 2 E41pp13 green E42+_-.CEL 4 1 E42pm24 yellow E42+_+.CEL 4 2 E42pp14 green
  23. 23. SIN CORREGIR
  24. 24. CORREGIDO
  25. 25. In summary• Good experimental design is essential to perform good experiments.• Experimental design means planning ahead – Should be done before the experiment starts – Should consider all the steps: from sampling to data analysis.• Not a question of "statistical snobism" but of saving time and money and of doing good science
  26. 26. Basic aspects ofqPCR data analysis
  27. 27. Outline• Common types of qPCR data analyses• Biostatistical aspects of relative quantification• Confirmatory and exploratory statistical analysis.
  28. 28. Real time qPCR data• RT-qPCR data are CT or threshold cycle values. – CT= Cycle number at which detectable signal is achieved. – The Lower/higher the CT Larger/Smaller amount of starting material
  29. 29. Basic types of RT-qPCR analysis• Two basic types of analysis – Absolute quantification – Relative quantification• Choice based on – Experimental goals – Available resources
  30. 30. Absolute quantification• Use absolute quantification… – To understand properties that are intrinsic to a given sample. – To answer the question "how many"?• Examples of applications – Chromosome or gene copy number determination – Viral load measurements
  31. 31. Standard curve• Absolute quantification is achieved by comparing CT values of each sample to a standard curve, which is obtained by – Using different known amounts of sample – For which CT is calculated – And plotted vs the (log) (known) quantity
  32. 32. Standard Calibration Curve
  33. 33. Example: determining absolute copy number from absolute quantification• The standard curve is used only for interpolation but not for extrapolation (relation may not be linear outside the limits tested).
  34. 34. Absolute vs Relative quantifications• Absolute quantification answers the question "how many" but gives no information about change.• Relative quantification can be used to – Compare levels or changes in gene expression. – Answer the question – What is the fold difference?
  35. 35. Relative quantification methods• For absolute quantification one requires a standard template with several known concentrations to build the curve.• For relative quantification one needs to apply some form of normalization, that is one has to transform the data in order to – Remove possible experimental biases – Make data from different samples/groups comparable so that the term "relative" keeps its meaning.
  36. 36. Normalization against a unit mass
  37. 37. Normalization against a reference gene• Benefit: – Circumvents need for accurate quantification of starting material• Drawback: – Requires known reference genes with stable expression levels
  38. 38. Required CT values
  39. 39. Most common approaches• Livak or ∆∆CT method• The ∆CT method against a reference gene• The Pfaffl method
  40. 40. Livak method (1)
  41. 41. Livak method (2)
  42. 42. Other methods• Although Livak method is the most used• The ∆CT method yields equivalent results but is simpler to calculate.• The Pfaffl method is preferable when reaction efficiencies of the target and reference are not similar.
  43. 43. Biostatistical aspects of relative quantification
  44. 44. Biostatistical analysis• Two main types of analyses – Comparative analyses, • Relatively rigorous • Check a predefined hypotheses • Relies on statistical testing – Expression profiling: Search for trends and patterns in the data • Exploratory, hypothesis generating approach • Less rigorous • Cluster analysis or PCA
  45. 45. Relative quantification
  46. 46. Expression profiling
  47. 47. Three basic premises• Statistical analyses of RT-qPCR data relies on three assumptions – One gene-at-a-time – We are sampling from two different (unknown) independent populations – There exist unknown mechanisms that contribute to variability.
  48. 48. From assumptions to strategies (1)• Use random sampling and randomization to obtain independent and representative samples.
  49. 49. From assumptions to strategies (2)• Apply experimental design principles to minimize confounding variability
  50. 50. From assumptions to strategies (3)• Perform statistical testing• DO NOT FORGET about multiple testing adjustments
  51. 51. Statistical analysis• Standard statistical approach: Confirmatory study- Reject or accept predefined hypothesis
  52. 52. Comparing two groups…
  53. 53. Comparing more than two groups
  54. 54. Exploratory statistical analysis• If instead of confirming hypothesis we want to generate them (finding patterns in data)
  55. 55. Multivariate methods forexploratory data analysis
  56. 56. Software for the analysis• ABI – DataAssist• Biogazelle – REST• Bio-Rad – GENEX (Gene expression macro)• Multid – GenEx• Bioconductor – HTqPCR• Integromics – StatMiner
  57. 57. Introduction to microarray data analysis
  58. 58. Esquema de la presentación Introducción y objetivos Análisis de datos de microarrays  Tipos de datos y Tipos de estudios. Herramientas.  El proceso de análisis. Ejemplos Críticas, consensos, consejos y “estado del arte”  Críticas a los microarrays  Consensos y consejos (“dos and don’ts”)  MAQC-I, MAQC-II De los microarrays al diagnóstico  ¿Porque está siempre por llegar?
  59. 59. Para aprender más …http://www.ub.es/stat/docencia/bioinformatica/microarrays/ADM/
  60. 60. Tipos de estudios
  61. 61. (1): Class comparison
  62. 62. (2): Class discovery
  63. 63. (3): Class prediction
  64. 64. Y muchos más … Time Course  Perfiles de expresión a lo largo del tiempo Pathway Analysis-(Systems Biology)  Reconstrucción de redes metabólicas a partir de datos de expressión Whole Genome, CGH, Alternative Splicing Estudios con datos de distintos tipos  Fusión o Integración de datos
  65. 65. Herramientas para el análisis
  66. 66. Programas de análisis de datos Multitud de herramientas  Gratuítas / Comerciales  [R, BRB, MeV, dChip…] / [Partek, GeneSpring, Ingenuity]  Descargables / En-linea  [R, BRB, MeV…] / [Gepas,…]  Aísladas / Parte de “suites” o de sitios  [BRB, dChip] / [MeV (TM4), OntoTools] A survey of free microarray data analysis tools:  http://chagall.med.cornell.edu/I2MT/MA-tools.pdf
  67. 67. Programas de análisis libresPrograma  R/Bioconductor Potente, flexible, Consola, difícil de actualizado, dominar Unix/Windows/MacBRB tools Basado en Excel, Si falla, falla. User-friendly Difícil de extenderdChip Expresión & SNP’s Solo Windows User-frinedly Pocas opcionesBabelomics Web-based, Web-based Multiples opciones, Manejo algo rígido Buen material…
  68. 68. Babelomics: Viaje al conocimiento
  69. 69. Programas de análisis comercialesPrograma  geneSpring Muy extendido ANOVA limitados Gráficos potentes CARO Extensible (R)Partek ANOVA muy potente Sólo estadística “clásica” Mult. tipos de datos No extensible. Caro Visualización 3DIngenuity BD de anotaciones Centrada mayormente en Análisis de redes y de datos de cáncer. significación biológica Caro.…
  70. 70. El proceso de análisis
  71. 71. Análisis de un experimento con microarrays (1) Imágenes (Datos crudos) (2) C. de calidad (bajo nivel) (3) Preprocesado (4) Exploración de la Matriz de Expresión (5) Análisis (6) Significación Biológica
  72. 72. (0) Diseño experimental • Variabilidad – Sistemática • Calibrar/Normalizar – Aleatoria • Diseño Experimental • Inferencia • Decidir acerca de Awful design :-( Balanced design :-) – Réplicas,Sample 1 Treatment Sex A Male Batch 1 Sample 1 Treatment Sex A Male – Lotes (“Batch effect”) 2 3 A A Male Male 1 1 2 3 A A Female Male – Pools … 4 A Male 1 4 A Female 5 B Female 2 5 B Male 6 B Female 2 6 B Female 7 B Female 2 7 B Male 8 B Female 2 8 B Female
  73. 73. (1) Obtención de la imagen … • Entra: Microarrays • Salen: – Imágenes (1/chip) – Ficheros de imagen • Información para cada sonda individual • Datos para el análisis de bajo nivel … – Control de calidad – Preprocesado1.cel, 1.chp 2.cel, 2.chp – Sumarización
  74. 74. (2) Control de calidad de bajo nivel • Entra: … – Imágenes (.CEL, ...)1.cel, 1.chp 2.cel, 2.chp • Proceso – Diagnósticos y Control de calidad – Análisis basado en modelos (PLM) • Salen: – Gráficos – Estadísticos de control de calidad
  75. 75. (3) Preprocesado … • Entra: – Fichero de Imágenes 1.cel, 1.chp 2.cel, 2.chp (datos del escaner) • Proceso – Eliminación de ruido – Normalización – Sumarización C01-001.CEL C02-001.CEL C03- – Filtrado • Sale:001.CEL1415670_at 8.954387 9.088924 8.8338631415671_at 10.700876 10.639307 10.610953 – Matriz de expresión1415672_at 10.377266 10.510106 10.4617011415673_at 7.320335 7.252635 7.1123131415674_a_at 8.381129 8.332256 8.3937181415675_at 8.120937 8.082713 8.0515141415676_a_at 10.322229 10.287371 10.2828121415677_at 9.038344 8.979641 8.905711
  76. 76. (4) Exploración C01-001.CEL C02-001.CEL C03-001.CEL1415670_at1415671_at 8.954387 10.700876 9.088924 10.639307 8.833863 10.610953 • Entra1415672_at1415673_at 10.377266 7.320335 10.510106 7.252635 10.461701 7.112313 – Matriz de expresión • Proceso1415674_a_at 8.381129 8.332256 8.3937181415675_at 8.120937 8.082713 8.0515141415676_a_at 10.322229 10.287371 10.2828121415677_at 9.038344 8.979641 8.905711 – PCA, Cluster, MDS – Representaciones en 2D/3D – Agrupaciones • Sale – Detectado efectos batch – Verificación calidad
  77. 77. (5) Análisis estadístico (i): Selección de genes diferencialmente expresados 1415670_at C01-001.CEL 8.954387 C02-001.CEL C03-001.CEL 9.088924 8.833863 • Entra: – Matriz expresión 1415671_at 10.700876 10.639307 10.610953 1415672_at 10.377266 10.510106 10.461701 1415673_at 7.320335 7.252635 7.112313 1415674_a_at 1415675_at 8.381129 8.120937 8.332256 8.082713 8.393718 8.051514 – Modelo de análisis • Proceso 1415676_a_at 10.322229 10.287371 10.282812 1415677_at 9.038344 8.979641 8.905711 – t-tests, ANOVA • Ajustes de p-valores • Sale – Listas de genes • Fold change, p.values ProbeSet gene ID logFC t P.Value adj.P.Val B1450826_a_at Saa3 1450826_a_at 4,911 63,544 6,21E-14 2,80E-10 22,2441457644_s_at Cxcl1 1457644_s_at 4,286 53,015 3,52E-13 7,69E-10 20,7911415904_at Lpl 1415904_at -4,132 -50,455 5,66E-13 7,69E-10 20,373 – Gráficos1449450_at Ptges 1449450_at 5,164 49,483 6,82E-13 7,69E-10 20,2071419209_at Cxcl1 1419209_at 5,037 47,175 1,08E-12 9,71E-10 19,7941416576_at Socs3 1416576_at 3,372 42,107 3,19E-12 2,08E-09 18,7841450330_at Il10 1450330_at 4,519 42,056 3,23E-12 2,08E-09 18,7731455899_x_at Socs3 1455899_x_at 3,648 40,821 4,29E-12 2,12E-09 18,502 – Perfiles de expresión1419681_a_at Prok2 1419681_a_at 3,709 40,645 4,48E-12 2,12E-09 18,4631436555_at Slc7a2 1436555_at 3,724 40,081 5,12E-12 2,12E-09 18,335
  78. 78. (5) Análisis estadístico (ii):Construcción & validación de un predictor • Entra: – Matriz expresión • Proceso – Selección variables – Ajuste modelo – Validación • Sale – Modelos predictivos – Medidas de fiabilidad /reproducibilidad
  79. 79. (6) Significación biologica ProbeSet gene ID logFC1450826_a_at Saa3 1450826_a_at 4,9111457644_s_at Cxcl1 1457644_s_at 4,2861415904_at Lpl 1415904_at -4,1321449450_at1419209_at Ptges Cxcl1 1449450_at 1419209_at 5,164 5,037 • Entra1416576_at Socs3 1416576_at 3,3721450330_at1455899_x_at Il10 Socs3 1450330_at 1455899_x_at 4,519 3,648 – Listas de genes1419681_a_at Prok2 1419681_a_at 3,7091436555_at Slc7a2 1436555_at 3,724 • Proceso – GEA, GSEA, … • Sale: – Clases GO / Grupos de Genes Pathways especialmente representados
  80. 80. Ejemplo de análisis de datos Comparación de perfiles de expresión entre tumores BRCA1/BRCA2 y Construcción de un predictor que permita distinguir entre ambos.
  81. 81. Fuente del ejemplo Gene Expression Profiles in Hereditary Breast Cancer• Hedenfalk, I, et. al., NEJM, Vol. 344, No. 8, pp 539-548. Objetivo: Encontrar un predictor basado en perfiles de expresión para diferenciar tumores asociados a BRCA1 y BRCA2
  82. 82. Esquema del análisis• Diseño experimental y datos para el análisis• Preprocesado• Exploración• Selección de genes• Construcción de varios predictores y selección del más apropiado
  83. 83. Diseño experimental Patie BRCA1 v nt PI BRCA2 v • RNA extraido deArray D Sporadic s1321 20 Sporadic – 7 pacientess. BRCA1 s1996 1 BRCA1 – 8 pacients BRCA2 s1822 5 BRCA1 – 7 con cancer “esporádico” s1714 3 BRCA1 • 6512 sondas s1224 7 BRCA1 s1252 2 BRCA1 – 5361 genes s1510 4 BRCA1 • 3226 retenidos para el s1900 10 BRCA2 análisis s1787 9 BRCA2 • Diseño de referencia s1721 8 BRCA2 s1486 22 BRCA2 – Cada muestra comparada s1572 16 Sporadic contra linea celular no s1324 17 Sporadic tumorgénica (MCF-104) s1649 15 Sporadic s1320 18 Sporadic s1542 19 Sporadic s1281 21 Sporadic s1905 6 BRCA1 s1816 13 BRCA2
  84. 84. Datos: log ratios
  85. 85. Preprocesado:Filtrado y Normalización
  86. 86. Exploración (1)
  87. 87. Exploración (2)
  88. 88. Análisis (1). Selección de genes (class comparison) • BRCA1 vs noBRCA1 • Usamos un t-test y un cutoff de 0.0001 – es decir declaramos diferencialmenete expresados los genes cuyo p-valor sea inferior a 0.0001 • No hacemos ajustes – Mínimo FC – Multiple testing
  89. 89. Resultados (1): Lista de genes ParametricOrder p-value FDR Fold-change Unique id Description Clone 1 1.66e-05 0.0198 2.24 HV34H7 ESTs 247818 2 2.17e-05 0.0198 2.03 UG5G3 minichromosome maintenance deficient (S. cerevisiae) 7 46019 3 2.3e-05 0.0198 0.31 HV17G6 keratin 8 897781 4 3.37e-05 0.0198 1.89 HV18E8 SELENOPHOSPHATE SYNTHETASE ; Human selenium donor protein 840702 5 3.63e-05 0.0198 2.21 HV32C7 ESTs 307843 6 4.32e-05 0.0198 1.57 UG1F1 very low density lipoprotein receptor 26082 7 4.5e-05 0.0198 1.67 HV24F5 chromobox homolog 3 (Drosophila HP1 gamma) 566887 8 4.92e-05 0.0198 2.02 LO3F1 butyrate response factor 1 (EGF-response factor 1) 366647 9 9.43e-05 0.0338 1.85 HV9E3 "tumor protein p53-binding protein, 2" 212198
  90. 90. Análisis (2):Construcción de un predictor • Construímos predictores por 6 métodos distintos. • Genes candidatos por class-comparison. • Elegimos el que presente menor tasa de error de predicción (estimada por leave one out)
  91. 91. Resumiendo… El análisis de microarrays puede visualizarse como un proceso. Es importante conocer  Los métodos apropiados para cada problrma,  los parámetros, el significado, las limitaciones de cada paso. Una aplicación adecuada del proceso proporciona información relevante como...  una lista de genes diferencialmente expresados (biomarcadores).  un modelo con capacidad de predecir (firma)
  92. 92. Limitaciones del métodoCríticas, consejos, consensos y “estado del arte”
  93. 93. Limitaciones de los microarrays
  94. 94. An array of problems?• Poca reproducibilidad entre estudios – Poca coincidencia entre las listas de genes – No reproducción de las predicciones en nuevos conjuntos de test• Falta de estándares• Falta de consenso en los métodos• El paso a la clínica siempre por llegar• Mediados de la década: ¿Promesa o realidad?
  95. 95. Que no estamos tan mal...
  96. 96. Algunos consensos (Allison 2006)• Diseño – Biological replication is essential – There is strength in numbers: power & sample size – Pooling biological samples can be useful• Seleccion de genes diferencialmente expresados – Using FC alone as a differential expression test is not valid – Shrinkage is a good thing – FDR is a good alternative to conventional multiple-testing approaches• Clasificación y Predicción – Unsupervised classification is overused – Unsupervised classification should be validated using resampling- – Supervised-classification requires independent cross-validation
  97. 97. No todos los estudios se hacen bien...• Dupuy & Simon estudian 90 publicaciones. – Análisis detallado de los métodos usados en 42.• Ecuentran algunos errores comunes – Objetivos pobremente definidos. – No hay control de la multiplicidad 104 genes  104 tests  P(Falso+) muy alta – Ni se informa bien de la fiabilidad de un predictor. – No se utiliza un conjunto de test independiente. – Se abusa por doquier del análisis de clusters.
  98. 98. Aunque es posible hacerlo bien si... • Se procura... (do’s) • Se evita... (don’t) – Definir bien objetivos. – Basar la selección tan – Combinar el p-valor y sólo en “Fold Change” el FC al seleccionar – Usar p-valores de 0.05 genes. – Usar métodos de cluster – Usar la FDR para el si lo que se deseara es control de clasificar muestras. multiplicidad. – Violar el principio básico – Validar un predictor de la validación (no debe con un conjunto de usarse el cjto de prueba prueba independiente. antes de la validación). – Contar con un estadístico... Hasta 40 “do’s” y “don’ts” en la tabla 3 de Dupuy y Simon (JNCI 99 (2): 147-157).
  99. 99. Resumiendo• Los microarrays tienen algunas limitaciones –razonables e intrínsecas-• Un adecuado uso de los métodos de análisis puede generar información útil, fiable y reproducible.• Aún así el paso de la clínica al diagnóstico es más lento de lo que se esperaba. ¿Por qué?
  100. 100. De la investigación básica a losdiagnóstico basados en microarrays ¿Para cuando?
  101. 101. La idea está clara...
  102. 102. Pero hay muy pocos kits de diagnóstico...
  103. 103. Algunas de las dificultades• Se precisan estudios muy grandes para establecer la potencia de un (kit) diagnóstico y validarlo en una cohorte independiente y suficientemente amplio.• Hacen falta estandarizaciones y sistemas de control de calidad validados según criterios de laboratorios clínicos.• Los tests de perfiles de expresión han de cumplir las normas de la Agencia Médica Europea y/o la FDA.• Para justificar su desarrollo hay que hacer estudios de coste efectividad que sugieran una clara mejora en el tratamiento al paciente y retorno de inversión y beneficios en el medio/largo plazo.
  104. 104. Estado de los diagnósticos basados en microarrays Lleno: , Vacío: 
  105. 105. Resumiendo• Se espera que la creciente calidad y tamaño de los estudios genere nuevos perfiles de expresión transportables al diagnóstico.• Aspectos como estandarización y automatización (robótica) para minimizar la intervención humana están cada vez mejor.• Otros como la regulación por parte de las agencias y las políticas de reembolso a los inversores y los laboratorios deben de irse resolviendo.• No es improbable un futuro en el que el “lab-on-a- chip” forme parte de las herramientas de los clínicos.

×