NGS analysis of micro-RNA

1,862 views

Published on

NGS analysis of micro-RNA -
Michael Hackenberg -
Massive sequencing data analysis workshop -
Granada 2011

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,862
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
37
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

NGS analysis of micro-RNA

  1. 1. Data analysis workshop for massive sequencing dataAnalysis of deep-sequencing experiments for small RNAsMichael HackenbergComputational Genomics and Bioinformatics GroupGenetics DepartmentUniversity of Granadahttp://bioinfo2.ugr.es
  2. 2. Overview Introducción • Función y procesamiento • Secuenciación Detectar microRNAs conocidos • Preprocesamiento de los reads (control de calidad, formato read/count) • Eliminar los adaptadores 3’ • Mapear los reads a las librerías de referencia (microRNA de miRBase, Rfam, genoma, etc) • Detectar IsomiRs • Detectar expresión diferencia Detectar/predecir nuevos microRNA • Homología • Aprendizaje automatizado Sesión práctica (miRanalyzer) • Preprocesar los datos con groupReads.pl • Detectar microRNAs conocidos y expresión diferencial
  3. 3. Función Introducción Un microRNA es un RNA corto de entre 19 y 25 nt de longitud. Están post- implicados en la regulación génica post-transcripcional y probablemente también en la metilación del ADN. • Los microRNA se transcriben a partir de genes de ADN pero no se traducen a proteína (genes no-codificantes) • Son presentes en un amplio rango de especies tanto en plantas como en animales. • Muchos de ellos son altamente conservados • La mayoría de los genes de microRNA se ubican en regiones intergénicas y tienen su propio promotor y elementos regulatorios • Aprox. 40% de los genes de microRNA están ubicado en intrones se transcriben conjuntamente con el gen hospedador. • Están involucrados en muchos procesos básicos (metabolismo, desarrollo, sistema inmunológico, etc.) • Algunos microRNA están implicados en el desarrollo de patológicas como el cáncer
  4. 4. Procesamiento Introducción• La mayoría se transcriben mediante polimerasa II (algunos mediante pol III) como largos transcritos primarios (pre- microRNA)• El pri-miRNA se procesa mediante la proteína Drosha pre-miRNA• El pre-miRNA se exporta al citoplasma mediante Exportin 5• Dicer procesa el pre-miRNA en el citoplasma y genera el microRNA maduro• El microRNA maduro se asocia con el complejo proteico RISC (RNA-induced silencing complex )• RISK inicia o la inhibición de la traducción o la degradación del mRNA
  5. 5. Secuenciación IntroducciónPreparación de la librería• Extracción del RNA total• Purificar RNA corto (electroforesis en gel) normalmente entre 17 y 30 bp• Añadir adaptadores 5’ y 3’. Existen adaptadores que reconocen específicamente el grupo 3’ hidroxilo que es el resultado del procesamiento por Dicer• RT-PCR para generar la librería de cDNAPunto de partida: resultado de la secuenciación enformato fastq@SRR037876 GSM522374_1:1:148:931:861 Secuencia/readTAGTTCTACAGTCCGACGATCTCGTATGCCGTCTTC+BB@+?0:4@B@-@/A<3A7@-=@<1=@87=?<==9# Calidad del read Phred Score
  6. 6. Programas disponibles AnálisisDSAP (servidor web): http://dsap.cgu.edu.tw/dsap.htmlExpresión diferencial, isomiRs, comparación entre especies, filtrado por Rfam, representación gráfica.mirTools (servidor web): http://centre.bioinformatics.zj.cn/mirtools/Predicción de microRNA nuevos, expresión diferencial, representación gráfica, limitado a 10 MbSeqBuster (servidor web & local): http://estivill_lab.crg.es/seqbuster/Expresión diferencial, isomiRs, representación gráficamiRanalyzer (servidor web & local):http://bioinfo2.ugr.es/miRanalyzer/miRanalyzer.phpPredicción de nuevos microRNA, expresión diferencial (también de nuevos microRNAs), color space,Los programas comparten muchos pasos de análisisDifieren en: • la manera exacta o el orden en el que se llevan a cabo. • número de análisis disponibles (expresión diferencial, detectar IsoMirs, predecir microRNA nuevo, etc.) • Sevidor web / aplicación local
  7. 7. Diferentes pasos del análisis AnálisisUn típico flujo de trabajo de los programas• Preprocesamiento de los datos: filtrar reads con calidad baja, convertir formato fastq en read/count• Detección del adaptador 5’: los moléculas de RNA que se secuencia suelen ser mas cortos que el read (número de ciclos) que conlleva la secuenciación parcial de adaptador.• Alineamiento de los reads frente a librerías de referencia: microRNAs conocidos de miRBase, Rfam, transcritos & conteo de los reads• IsomiRs: Detectar, clasificar y cuantificar la existencia de IsomiRs• Expresión diferencial: Detectar aquellos microRNAs conocidos (y nuevos microRNAs) que se expresan de forma diferencial entre dos condiciones
  8. 8. Preprocesamiento AnálisisConvertir fastq en read/count que es la entrada para virtualmente todos losprogramas@SRR037876 GSM522374_1:1:148:931:861TAGTTCTACAGTCCGACGATCTCGTATGCCGTCTTC+BB@+?0:4@B@-@/A<3A7@-=@<1=@87=?<==9#@SRR037876 GSM522374_1:1:148:931:517AGCTACATTGTCTGCTGGGTTTCTCGTATGCCGTCT • Filtrar reads con calidad baja+ • Recortar los readsBBC@3<1=872661.@C;@A93+?:;.2.?386<;> • (Eliminar los adaptadores)@SRR037876 GSM522374_1:1:148:931:648 • Agrupar las secuencias únicas y contar suTGAGGTAGTAGGTTGTGTGGTTAATCGTATGCCGCT número de copias+ • Establecer un número mínimo de copias5@059)@6?:9>0<@@)@=BA8)99@3258?####@SRR037876GSM522374_1:1:148:931:770GCTACATTGTCTGCTGGGTTTCTCGTATGCCGTCTT+ sequence count GCTATGACGGTTACACTCTCCGGTCG 2.0 TAGGTCAAGGTGTAGCCCATGAGGTG 14.0 AAAGGGATTTTTGGAGCAGGGAGATG 2.0 GGCTGCCTGCGGATGAAGTCGTATGG 1.0
  9. 9. Detectar los adaptadores AnálisisDebido a la longitud de los microRNA se secuencia parcialmente el adaptador 3’TCGTATGCCGTCCTGCTTGT• Conviene buscar y eliminar el adaptador ya que este no alineará con las referencias (microRNAs conocidos, genoma, etc).• Hay que establecer el número de desemparejamientos y longitud mínima• Equilibrio entre sensibilidad (número alto de MM y longitud corta) y especificidad (longitud baja y número alto de desemparejamientos permitidos)>16#1.0 >16#1.0TGATAGAATGCTCGACACGGTTCGTATGCCGTCTTC TGATAGAATGCTCGACACGGT>17#1.0 >17#1.0CGCTCCTACCGTTGATCGTATGCCGTCTTCTGCTTG CGCTCCTACCGTTGA>18#1.0 >18#1.0GGCGGATGTAGCCAAGTGGATCGGTAGCCGTCTTTT GGCGGATGTAGCCAAGTGGATCGGTAGCCGTCTTTT>19#1.0 >19#1.0AGATTGAATGAAAGTAAAGGACGGTCGTATGCCGTC AGATTGAATGAAAGTAAAGGACGG>20#308.0 >20#308.0TCGGACCAGGCTTCAATCCCTCGTATGCCGTCTTCT TCGGACCAGGCTTCAATCCC>21#1.0 >21#1.0CATAGTCCTATATGGAGAACCGGATCGTATGCCGTC CATAGTCCTATATGGAGAACCGGA>22#21.0 >22#21.0TAATTCATGATCTGGCATCGTATGCCTTCTTCTGCT TAATTCATGATCTGGCA>23#1.0 >23#1.0AGGATGGCTCGGCTGCTCGTATGCCGTTTTCTGCTT AGGATGGCTCGGCTGC
  10. 10. Mapear sin adaptador Análisis Alinear los reads con parámetros:Reads sin adaptador • Max. Número de desemparejamientos • Longitud mínima (cubertura)>2001#208764TGGCTCAGTTCAGCAGGAACA microRNA librería de miRBase>5078#102CAAAGTGCTCATAGTGCAGGTA >hsa-miR-16>6099#19 TAGCAGCACGTAAATATTGGCAACACACCTGGTTAACCTCTTT >hsa-miR-24>8101#208764 TGGCTCAGTTCAGCAGGAACATGGCTCAGTTCAGCAGGAACA >hsa-miR-20b>9601#2087 CAAAGTGCTCATAGTGCAGGTATGGCTCAGTTCAGCAGGAACA >hsa-miR-329>10003#2000 AACACACCTGGTTAACCTCTTTTAGCAGCAGGTAAATATTGGC microRNA count hsa-miR-16 2 hsa-miR-24 2 hsa-miR-20b 1 hsa-miR-329 1
  11. 11. Mapear con adaptador Análisis miRanalyzer se basa en Bowtie usando un seed-alignment que no requiere la detección previa del adaptador microRNA librería de miRBase Reads con adaptador 1 >hsa-let-7a >251#20864 TGAGGTAGTAGGTTGTATAGTT TGAGGTAGTAGGTTGTATAGTT >hsa-let-7b TGAGGTAGTAGGTTGTGTGGTT 2 >hsa-let-7c1: Alinear primero la región del seed (17 bp) TGAGGTAGTAGGTTGTATGGTT >hsa-let-7d El read mapea con let-7a y let-7b con 0MM AGAGGTAGTAGGTTGCATAGTT2: Extender el alineamiento manteniendo el >hsa-let-7e número de MM observados en el seed TGAGGTAGGAGGTTGTATAGTT >hsa-let-7f Alineamiento mas largo al let-7a TGAGGTAGTAGATTGTATAGTT Se asigna el read a let-7a
  12. 12. IsomiRs AnálisisMediante las nuevas técnicas de secuenciación se ha podido observar diferentesvariantes llamados IsomiRs• Diferentes longitudes (errores de Dicer o cleavage alternativo): para detectar variaciones en la longitud hay que mapear los reads frente a una librería de pre- microRNA• Extensión de un solo nucleótido (single-nucleotide 3′ extensions): Solo se puede detectar si los adaptadores han sido eliminados del read previamente• RNA editing: Difícil de detectar debido a la existencia de errores de secuenciación.Todavía no está de todo claro si estos cambios son funcionales o se deben a errores(secuenciación & Dicer)El programa SeqBuster ofrece los análisis mas completos para estudiar los IsomiRs
  13. 13. Expresión diferencial AnálisisEl objetivo final de muchos análisis es la detección de microRNAs que se expresan deforma diferencial entre dos condiciones (enfermo/sano, tratado/no-tratado, etc.)Se ha desarrollado métodos específicos para la ‘expresión digital’ (digital expression)• RNA-seq (Marioni, et al., 2008)• DEGseq (Wang, et al., 2010): http://www.bioconductor.org/packages/2.6/bioc/html/DEGseq.html,• edgeR (Robinson, et al., 2010): http://www.bioconductor.org/packages/release/bioc/html/edgeR.html• DESeq (Anders and Huber, 2010): http://www.bioconductor.org/packages/2.6/bioc/html/DESeq.htmlmiRanalyzer utiliza DESeq para detectar expresión diferencial• Procesar todas las muestras con miRanalyzer• Mediante las IDs de cada proceso se pueden formar los dos grupos
  14. 14. Detectar microRNA nuevos AnálisisUna posibilidad es usar la homología• Mapear los reads frente a un conjunto ‘exógeno’ de microRNAs• Detectar la posición cromosómica de los mapeados• Extraer una secuencia alrededor de la posición cromosómica• Determinar la estructura secundaria: ¿Existe un hairpin (horquilla)?, ¿La fold energy es mayor que un umbral dado?El programa miRExpress (http://mirexpress.mbc.nctu.edu.tw/) predice nuevosmicroRNAs de esta forma
  15. 15. Aprendizaje automatizada AnálisisOtra posibilidad es usar aprendizaje automatizadaLos pasos comunes en todos los métodos son:• Mapear los reads al genoma• Agrupar los reads que mapean en la misma posición• Extraer la secuencia genómica de la posición añadiendo secuencias flanking con tal de incluir totalmente la posible secuencia pre-microRNA• Determinar la estructura secundaria rechazando aquellas con no presentan un hairpin• Calcular propiedades basadas en la estructura, composición de secuencia, expresión o signaturas especificas de Dicer (existencia del microRNA*, etc)• Entrenar un modelo (SVM, Random Forest, etc.)• Predecir la probabilidad de un candidato de ser un nuevo microRNA
  16. 16. Overview Sesión prácticaPara la sesión practica vamos a usar la herramienta miRanalyzerEn siguiente página (http://donau.ugr.es) encontramos los detalles

×