Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica


Published on

  • Be the first to comment

  • Be the first to like this

No Downloads
Total views
On SlideShare
From Embeds
Number of Embeds
Embeds 0
No embeds

No notes for slide

Curso de Genómica - UAT (VHIR) 2012 - Análisis de datos de expression génica

  1. 1. Statistical analysis of gene expression data Alex SánchezUnitat dEstadística i Bioinformàtica (VHIR) Statistics Department (UB)
  2. 2. Outline• Basic principles of experimental design• The microarray data analysis process
  3. 3. Basic principles ofExperimental Design
  4. 4. Research• Researcher’s first goal: understand a process, (to understand, control, modify, reproduce … it)• To reach this goal researchers perform studies.• Experiments are a central part of many studies.
  5. 5. What characterizes an experiment?1. The treatments to be used2. The experimental units to be used3. The way that treatments levels are assigned to experimental units (or visa-versa): The Experimental Design4. The responses that are measured
  6. 6. How can we obtain a good experimental design?• Try to apply some good, general, relatively overlapping rules 1. Rely on an Experimental Design checklist 2. Follow a good Experimental Design Process 3. Rely on basic principles of Experimental Design Randomization, replication, local control• But also • Plan design and analysis at the same time • Involve your favourite statistician from the beginning (or before)
  7. 7. What characterizes a good experimental design?• It avoids systematic error – systematic error leads to bias when estimating differences in responses between (i.e., comparing) treatments• It allows for precise estimation – achieves a relatively small random error,• It has broad validity • the experimental units are a sample of the population study • The conclusions obtained on the sample can be extrapolated to the population.
  8. 8. To obtain a good experimental design (1) Plan the experiments (Checklist)1. Define the objectives of the experiment2. Identify all potential sources of variation3. Select an appropriate Experimental Design.4. Specify the experimental process5. Conduct a pilot study6. Specify the hypothesized model7. Outline the analyses to be conducted8. Estimate the required sample size using results from the pilot study9. Review your decisions in Steps 1 – 8 and make necessary revisions
  9. 9. To obtain a good experimental design (2): Follow the experimental design process
  10. 10. To obtain a good experimental design (3) Follow Experimental Design Principles
  11. 11. The basic principles of Experimental Design• Good experimental designs share common traits.• Apart of wishful thinking there is general agreement that relying on experimental design principles yields good (if not best) experimental designs.• These are • Randomization • Replication • Blocking or Local control
  12. 12. 1. Randomization• Randomly assigning samples to groups to eliminate unspecific disturbances – Randomly assign individuals to treatments. – Randomize order in which experiments are performed.• Randomization required to – Ensure validity of statistical procedures. – Ensure that no preferential allocation of treatment to experimental units is made • E.g: Assign strongest treatment to patients in worse health state – Ensure that the efects of confounding variables are minimized • Eg: Assign tretament to patients older than controls
  13. 13. Randomization software• Saying “randomly assign…” is sometimes easier to say than to do, especially in complex designs.• Some tools may help – R, of course – Research Randomizer – Interactive Statistical Calculation pages (look por “Experimental design”)
  14. 14. 2. Replication• There is general agreement about the need to apply each treatment independently to several experimental units. • Helps to establish reproducibility of results. • Protects against eventual abnormal/unusual results. • Provides a way to estimate the error variance in the absence of systematic differences among experimental units. (This is important because treatment differences are judged against this variance estimate.) • Provides the capacity to increase the precision for estimates of treatment means.• By itself, does not guarantee valid estimates of experimental error or treatment differences.
  15. 15. Replication precision and power• The number of replications r is directly related to the precision of the experiment (*) 1/var(mean) = r/ σ2• An efficient design has greater power to detect differences between treatment effects.• From (*) it follows that – the greater r – the smaller σ2 the greater the power attained by a design.
  16. 16. How many replications?• Formulae for computing sample size given: – effect size, – significance level (P Error type I) – power (1-P error type II) can be derived for most common analyses.• While the derivation is rough, the application – is straightforward, especially if using calculators – attention must be paid to application conditions.
  17. 17. Sample size calculators• R: package power –• Statistical calculators – –• Interactive Statistical Calculation pages (look for “Power and Sample Size”)
  18. 18. Biological vs Technical ReplicatesσB 2σA 2σe 2 @ Nature reviews & G. Churchill (2002)
  19. 19. 3. Blocking• Assume we wish to perform an experiment to compare two treatments.• The samples or their processing may not be homogeneous: There are blocks • Subjects: Male/Female • Arrays produced in two lots (February, March)• If there are systematic differences between blocks the effects of interest (e.g. tretament) may be confounded • Observed differences are attributable to treatment effect or to confounding factors?• Local control or blocking is the way to minimize the effect of existing (unavoidable?) blocks.
  20. 20. Local Control• Group EUs so that the variability of units within the groups is less than that among all units prior to grouping  – Differences among treatments are not confused with differences among experimental units. – EE is reduced by the variability associated with environmental differences among groups of units. – Effects of nuisance factors which contribute systematic variation to the differences among EUs can be eliminated. – Analysis is more sensitive.
  21. 21. Confounding block with treatment effects Awful design Balanced design Sample Treatment Sex Batch Sample Treatment Sex Batch 1 A Male 1 1 A Male 1 2 A Male 1 2 A Female 2 3 A Male 1 3 A Male 2 4 A Male 1 4 A Female 1 5 B Female 2 5 B Male 1 6 B Female 2 6 B Female 2 7 B Female 2 7 B Male 2 8 B Female 2 8 B Female 1• Two alternative designs to investigate treatment effects – Left: Treatment effects confounded with Sex and Batch effect – Right: Treatments are balanced between blocks • Influence of blocks is automatically compensated • Statistical analysis may separate block from treatment efefect
  22. 22. Allocating samples to treatments• A key point in any experiment is the way that experimental units are allocated to treatments – It must be chosen so that random variability is as small as possible – It must be chosen so that the best local control is achieved. – It implicitly defines the analysis model, so it must be chosen so that the analysis can be performed and validity conditions hold.
  23. 23. In summary• Good experimental design is essential to perform good experiments.• Experimental design means planning ahead – Should be done before the experiment starts – Should consider all the steps: from sampling to data analysis.
  24. 24. And Fisher said…To consult the statistician after anexperiment is finished is often merelyto ask him to conduct a post mortemexamination.He can perhaps say what the experimentdied of. Sir Ronald A. Fisher Father of modern Mathematical Statistics and Developer of Experimental Design and ANOVA
  25. 25. Introduction to microarray data analysis
  26. 26. Esquema de la presentación Introducción y objetivos Análisis de datos de microarrays  Tipos de datos y Tipos de estudios. Herramientas.  El proceso de análisis. Ejemplos Críticas, consensos, consejos y “estado del arte”  Críticas a los microarrays  Consensos y consejos (“dos and don’ts”)  MAQC-I, MAQC-II De los microarrays al diagnóstico  ¿Porque está siempre por llegar?
  27. 27. Para aprender más …
  28. 28. Tipos de estudios
  29. 29. (1): Class comparison
  30. 30. (2): Class discovery
  31. 31. (3): Class prediction
  32. 32. Y muchos más … Time Course  Perfiles de expresión a lo largo del tiempo Pathway Analysis-(Systems Biology)  Reconstrucción de redes metabólicas a partir de datos de expressión Whole Genome, CGH, Alternative Splicing Estudios con datos de distintos tipos  Fusión o Integración de datos
  33. 33. Herramientas para el análisis
  34. 34. Programas de análisis de datos Multitud de herramientas  Gratuítas / Comerciales  [R, BRB, MeV, dChip…] / [Partek, GeneSpring, Ingenuity]  Descargables / En-linea  [R, BRB, MeV…] / [Babelomics,…]  Aísladas / Parte de “suites” o de sitios  [BRB, dChip] / [MeV (TM4), OntoTools] Review: Tools for managing and analyzing microarray data  ct?keytype=ref&ijkey=g74sTv2xGt5kOpU
  35. 35. El proceso de análisis
  36. 36. Análisis de un experimento con microarrays (1) Imágenes (Datos crudos) (2) C. de calidad (bajo nivel) (3) Preprocesado (4) Exploración de la Matriz de Expresión (5) Análisis (6) Significación Biológica
  37. 37. (0) Diseño experimental • Variabilidad – Sistemática • Calibrar/Normalizar – Aleatoria • Diseño Experimental • Inferencia • Decidir acerca de Awful design :-( Balanced design :-) – Réplicas,Sample 1 Treatment Sex A Male Batch 1 Sample 1 Treatment Sex A Male – Lotes (“Batch effect”) 2 3 A A Male Male 1 1 2 3 A A Female Male – Pools … 4 A Male 1 4 A Female 5 B Female 2 5 B Male 6 B Female 2 6 B Female 7 B Female 2 7 B Male 8 B Female 2 8 B Female
  38. 38. (1) Obtención de la imagen … • Entra: Microarrays • Salen: – Imágenes (1/chip) – Ficheros de imagen • Información para cada sonda individual • Datos para el análisis de bajo nivel … – Control de calidad – Preprocesado1.cel, 1.chp 2.cel, 2.chp – Sumarización
  39. 39. (2) Control de calidad de bajo nivel • Entra: … – Imágenes (.CEL, ...)1.cel, 1.chp 2.cel, 2.chp • Proceso – Diagnósticos y Control de calidad – Análisis basado en modelos (PLM) • Salen: – Gráficos – Estadísticos de control de calidad
  40. 40. (3) Preprocesado … • Entra: – Fichero de Imágenes 1.cel, 1.chp 2.cel, 2.chp (datos del escaner) • Proceso – Eliminación de ruido – Normalización – Sumarización C01-001.CEL C02-001.CEL C03- – Filtrado • Sale:001.CEL1415670_at 8.954387 9.088924 8.8338631415671_at 10.700876 10.639307 10.610953 – Matriz de expresión1415672_at 10.377266 10.510106 10.4617011415673_at 7.320335 7.252635 7.1123131415674_a_at 8.381129 8.332256 8.3937181415675_at 8.120937 8.082713 8.0515141415676_a_at 10.322229 10.287371 10.2828121415677_at 9.038344 8.979641 8.905711
  41. 41. (4) Exploración C01-001.CEL C02-001.CEL C03-001.CEL1415670_at1415671_at 8.954387 10.700876 9.088924 10.639307 8.833863 10.610953 • Entra1415672_at1415673_at 10.377266 7.320335 10.510106 7.252635 10.461701 7.112313 – Matriz de expresión • Proceso1415674_a_at 8.381129 8.332256 8.3937181415675_at 8.120937 8.082713 8.0515141415676_a_at 10.322229 10.287371 10.2828121415677_at 9.038344 8.979641 8.905711 – PCA, Cluster, MDS – Representaciones en 2D/3D – Agrupaciones • Sale – Detectado efectos batch – Verificación calidad
  42. 42. (5) Análisis estadístico (i): Selección de genes diferencialmente expresados C01-001.CEL C02-001.CEL C03-001.CEL • Entra: 1415670_at 8.954387 9.088924 8.833863 1415671_at 1415672_at 10.700876 10.377266 10.639307 10.510106 10.610953 10.461701 – Matriz expresión – Modelo de 1415673_at 7.320335 7.252635 7.112313 1415674_a_at 8.381129 8.332256 8.393718 análisis 1415675_at 8.120937 8.082713 8.051514 1415676_a_at 10.322229 10.287371 10.282812 1415677_at 9.038344 8.979641 8.905711 • Proceso – t-tests, ANOVA • Ajustes de p-valores • Sale ProbeSet gene ID logFC t P.Value adj.P.Val B1450826_a_at1457644_s_at1415904_at1449450_at Saa3 Cxcl1 Lpl Ptges 1450826_a_at 1457644_s_at 1415904_at 1449450_at 4,911 4,286 -4,132 5,164 63,544 53,015 -50,455 49,483 6,21E-14 3,52E-13 5,66E-13 6,82E-13 2,80E-10 7,69E-10 7,69E-10 7,69E-10 22,244 20,791 20,373 20,207 – Listas de genes • Fold change, p.values1419209_at Cxcl1 1419209_at 5,037 47,175 1,08E-12 9,71E-10 19,7941416576_at Socs3 1416576_at 3,372 42,107 3,19E-12 2,08E-09 18,7841450330_at Il10 1450330_at 4,519 42,056 3,23E-12 2,08E-09 18,7731455899_x_at Socs3 1455899_x_at 3,648 40,821 4,29E-12 2,12E-09 18,502 – Gráficos1419681_a_at Prok2 1419681_a_at 3,709 40,645 4,48E-12 2,12E-09 18,4631436555_at Slc7a2 1436555_at 3,724 40,081 5,12E-12 2,12E-09 18,335 – Perfiles de expresión
  43. 43. (5) Análisis estadístico (ii):Construcción & validación de un predictor • Entra: – Matriz expresión • Proceso – Selección variables – Ajuste modelo – Validación • Sale – Modelos predictivos – Medidas de fiabilidad /reproducibilidad
  44. 44. (6) Significación biologica ProbeSet gene ID logFC1450826_a_at Saa3 1450826_a_at 4,9111457644_s_at1415904_at1449450_at Cxcl1 Lpl Ptges 1457644_s_at 1415904_at 1449450_at 4,286 -4,132 5,164 • Entra1419209_at1416576_at Cxcl1 Socs3 1419209_at 1416576_at 5,037 3,372 – Listas de genes1450330_at Il10 1450330_at 4,5191455899_x_at1419681_a_at Socs3 Prok2 1455899_x_at 1419681_a_at 3,648 3,709 • Proceso1436555_at Slc7a2 1436555_at 3,724 – GEA, GSEA, … • Sale: – Clases GO / Grupos de Genes Pathways especialmente representados
  45. 45. Ejemplo de análisis de datosComparación de perfiles de expresión entre tumores BRCA1/BRCA2 y Construcción de un predictor que permita distinguir entre ambos.
  46. 46. Fuente del ejemplo Gene Expression Profiles in Hereditary Breast Cancer• Hedenfalk, I, et. al., NEJM, Vol. 344, No. 8, pp 539-548. Objetivo: Encontrar un predictor basado en perfiles de expresión para diferenciar tumores asociados a BRCA1 y BRCA2
  47. 47. Esquema del análisis• Diseño experimental y datos para el análisis• Preprocesado• Exploración• Selección de genes• Construcción de varios predictores y selección del más apropiado
  48. 48. Diseño experimental BRCA1 vPatient BRCA2 v • RNA extraido deArray PID Sporadic s1321 20 Sporadic – 7 pacientess. BRCA1 s1996 1 BRCA1 – 8 pacients BRCA2 s1822 5 BRCA1 – 7 con cancer “esporádico” s1714 3 BRCA1 • 6512 sondas s1224 7 BRCA1 s1252 2 BRCA1 – 5361 genes s1510 4 BRCA1 • 3226 retenidos para el s1900 10 BRCA2 análisis s1787 9 BRCA2 • Diseño de referencia s1721 8 BRCA2 s1486 22 BRCA2 – Cada muestra comparada s1572 16 Sporadic contra linea celular no s1324 17 Sporadic tumorgénica (MCF-104) s1649 15 Sporadic s1320 18 Sporadic s1542 19 Sporadic s1281 21 Sporadic s1905 6 BRCA1 s1816 13 BRCA2
  49. 49. Datos: log ratios
  50. 50. Preprocesado:Filtrado y Normalización
  51. 51. Exploración (1)
  52. 52. Exploración (2)
  53. 53. Análisis (1). Selección de genes (class comparison) • BRCA1 vs noBRCA1 • Usamos un t-test y un cutoff de 0.0001 – es decir declaramos diferencialmenete expresados los genes cuyo p-valor sea inferior a 0.0001 • No hacemos ajustes – Mínimo FC – Multiple testing
  54. 54. Resultados (1): Lista de genes ParametricOrder p-value FDR Fold-change Unique id Description Clone 1 1.66e-05 0.0198 2.24 HV34H7 ESTs 247818 2 2.17e-05 0.0198 2.03 UG5G3 minichromosome maintenance deficient (S. cerevisiae) 7 46019 3 2.3e-05 0.0198 0.31 HV17G6 keratin 8 897781 4 3.37e-05 0.0198 1.89 HV18E8 SELENOPHOSPHATE SYNTHETASE ; Human selenium donor protein 840702 5 3.63e-05 0.0198 2.21 HV32C7 ESTs 307843 6 4.32e-05 0.0198 1.57 UG1F1 very low density lipoprotein receptor 26082 7 4.5e-05 0.0198 1.67 HV24F5 chromobox homolog 3 (Drosophila HP1 gamma) 566887 8 4.92e-05 0.0198 2.02 LO3F1 butyrate response factor 1 (EGF-response factor 1) 366647 9 9.43e-05 0.0338 1.85 HV9E3 "tumor protein p53-binding protein, 2" 212198
  55. 55. Análisis (2):Construcción de un predictor • Construímos predictores por 6 métodos distintos. • Genes candidatos por class-comparison. • Elegimos el que presente menor tasa de error de predicción (estimada por leave one out)
  56. 56. Resultados (2i) Compound Diagonal Linear 1-Nearest 3-Nearest Nearest Support Bayesian Covariate Discriminant Neighbor Neighbors Centroid Vector CompoundArray id Class label Predictor Analysis Machines Covariate Predictor Correct? Correct? Correct? Correct? Correct? Correct? Correct?s1224 BRCA1 YES YES YES YES YES YES YESs1252 BRCA1 YES YES NO NO YES YES YESs1510 BRCA1 NO YES NO NO NO NO NOs1714 BRCA1 NO YES NO NO NO NO NOs1822 BRCA1 YES YES YES YES YES YES YESs1905 BRCA1 YES YES YES YES YES YES YESs1996 BRCA1 YES YES NO YES YES YES NAs1063 notBRCA1 YES YES YES YES YES YES YESs1281 notBRCA1 YES YES YES YES YES YES NAs1320 notBRCA1 NO YES YES YES YES YES YESs1321 notBRCA1 NO NO NO NO NO NO NOs1324 notBRCA1 YES YES YES YES YES YES YESs1486 notBRCA1 YES YES YES YES YES YES YESs1542 notBRCA1 YES YES YES YES YES YES YESs1572 notBRCA1 YES YES YES YES YES YES YESs1616 notBRCA1 YES YES YES YES YES YES YESs1649 notBRCA1 YES YES YES YES YES YES YESs1721 notBRCA1 YES YES YES YES YES YES YESs1787 notBRCA1 YES YES YES YES YES YES YESs1816 notBRCA1 YES YES YES YES YES YES YESs1900 notBRCA1 YES YES YES YES YES YES YESs1936 notBRCA1 YES YES YES YES YES YES YES 82% 95% 77% 82% 86% 86% 85%
  57. 57. Resultados (2ii)Performance of the Diagonal Linear Discriminant Analysis Classifier: Class Sensitivity Specificity PPV NPVBRCA1 1 0.933 0.875 1notBRCA1 0.933 1 1 0.875Final classifier: coeficients and criteriaA sample is classified to the class BRCA1 if the sum is greater than the thresholdThat is, ∑iwi xi > threshold.The threshold for the Diagonal Linear Discriminant predictor is 91.124 1 2 3 …. 51 52Genes HK1A11 HV10D8 HV11A6 …. HV28G8 HV2B1Coeficients 2,57 3,31 2,79 …. 3,01 5,52
  58. 58. Resumiendo… El análisis de microarrays puede visualizarse como un proceso. Es importante conocer  Los métodos apropiados para cada problrma,  los parámetros, el significado, las limitaciones de cada paso. Una aplicación adecuada del proceso proporciona información relevante como...  una lista de genes diferencialmente expresados (biomarcadores).  un modelo con capacidad de predecir (firma)
  59. 59. Limitaciones del métodoCríticas, consejos, consensos y “estado del arte”
  60. 60. Limitaciones de los microarrays
  61. 61. An array of problems?• Poca reproducibilidad entre estudios – Poca coincidencia entre las listas de genes – No reproducción de las predicciones en nuevos conjuntos de test• Falta de estándares• Falta de consenso en los métodos• El paso a la clínica siempre por llegar• Mediados de la década: ¿Promesa o realidad?
  62. 62. Que no estamos tan mal...
  63. 63. Algunos consensos (Allison 2006)• Diseño – Biological replication is essential – There is strength in numbers: power & sample size – Pooling biological samples can be useful• Seleccion de genes diferencialmente expresados – Using FC alone as a differential expression test is not valid – Shrinkage is a good thing – FDR is a good alternative to conventional multiple-testing approaches• Clasificación y Predicción – Unsupervised classification is overused – Unsupervised classification should be validated using resampling- – Supervised-classification requires independent cross- validation
  64. 64. No todos los estudios se hacen bien...• Dupuy & Simon estudian 90 publicaciones. – Análisis detallado de los métodos usados en 42.• Ecuentran algunos errores comunes – Objetivos pobremente definidos. – No hay control de la multiplicidad 104 genes  104 tests  P(Falso+) muy alta – Ni se informa bien de la fiabilidad de un predictor. – No se utiliza un conjunto de test independiente. – Se abusa por doquier del análisis de clusters.
  65. 65. Aunque es posible hacerlo bien si...• Se procura... (do’s) • Se evita... (don’t) – Definir bien objetivos. – Basar la selección tan – Combinar el p-valor y sólo en “Fold Change” el FC al seleccionar – Usar p-valores de 0.05 genes. – Usar métodos de cluster – Usar la FDR para el si lo que se deseara es control de clasificar muestras. multiplicidad. – Violar el principio básico – Validar un predictor de la validación (no debe con un conjunto de usarse el cjto de prueba prueba independiente. antes de la validación). – Contar con un estadístico... Hasta 40 “do’s” y “don’ts” en la tabla 3 de Dupuy y Simon (JNCI 99 (2): 147-157).
  66. 66. Resumiendo• Los microarrays tienen algunas limitaciones –razonables e intrínsecas-• Un adecuado uso de los métodos de análisis puede generar información útil, fiable y reproducible.• Aún así el paso de la clínica al diagnóstico es más lento de lo que se esperaba. ¿Por qué?
  67. 67. De la investigación básica a losdiagnóstico basados en microarrays ¿Para cuando?
  68. 68. La idea está clara...
  69. 69. Pero hay muy pocos kits de diagnóstico...
  70. 70. Algunas de las dificultades• Se precisan estudios muy grandes para establecer la potencia de un (kit) diagnóstico y validarlo en una cohorte independiente y suficientemente amplio.• Hacen falta estandarizaciones y sistemas de control de calidad validados según criterios de laboratorios clínicos.• Los tests de perfiles de expresión han de cumplir las normas de la Agencia Médica Europea y/o la FDA.• Para justificar su desarrollo hay que hacer estudios de coste efectividad que sugieran una clara mejora en el tratamiento al paciente y retorno de inversión y beneficios en el medio/largo plazo.
  71. 71. Estado de los diagnósticos basados en microarrays Lleno: , Vacío: 
  72. 72. Resumiendo• Se espera que la creciente calidad y tamaño de los estudios genere nuevos perfiles de expresión transportables al diagnóstico.• Aspectos como estandarización y automatización (robótica) para minimizar la intervención humana están cada vez mejor.• Otros como la regulación por parte de las agencias y las políticas de reembolso a los inversores y los laboratorios deben de irse resolviendo.• No es improbable un futuro en el que el “lab-on-a- chip” forme parte de las herramientas de los clínicos.