Vizbi2013: Visualising RNA

Visualising RNA

Paul Gardner
paul.gardner@canterbury.ac.nz
University of Canterbury, Christchurch,
New Zealand.

March 20, 2013

Paul Gardner Visualising RNA

Feel free to share
Feel free to tweet (@ppgardne), Google+, tumblr, ...
Slides are available from
http://www.slideshare.net/ppgardne/.


What is an RNA?

A Primary Structure
5 10 15 20 25 30 35 40 45 50 55 60 65 70 75
Ψ Ψ
5’ GCGGAUUUAGCUCAGDDGGGAGAGCGCCAGACUGAAYA.CUGGAGGUCCUGUGT.CGAUCCACAGAAUUCGCACCA 3’

B Secondary Structure C Tertiary Structure
75
3’A C 5’
C T ΨC 3’
5’ G C A Loop
Acceptor C G
Stem G C 70
GU T ΨC
D Loop 5A U Acceptor
15 UA Loop D Loop
DGA U U A 65 60 Stem
D A C UA
C U C G 10 GACAC
G G CUGUG G
G G A A G C 25 C 50
G U T ΨC
.
20
C GAG G 55
C G 45
AU
G C 40
A 30
C Ψ . Variable
Anticodon U A Anticodon
Loop
Loop G
A A
.
Y Loop
35


What is Rfam?

Sister database to Pfam
Aims to annotate all ncRNA families
Consortium headed by Alex Bateman (Wellcome Trust Sanger
Institute), Sean Eddy (Janelia, Howard Hughes), Sam
Griﬃths-Jones (Manchester, BBSRC), Paul Gardner
(University of Canterbury, RSNZ)


Rfam: families of ncRNAs

http://rfam.sanger.ac.uk
http://rfam.janelia.org


Building an Rfam family

A structure from literature

Pollard KS, et al. (2006). An RNA gene expressed during cortical development evolved rapidly in humans. Nature.



An Rfam family: produced manually from publication ﬁgures
# STOCKHOLM 1.0

G.gallus.1 UGAAAUGGAGGAGAAAUUACAGCAAUUUAUCAACUGAAAUUAUAGGUGUAGACACAUGUCAGCAGUAG
M.musculus.1 UAAAAUGGAGGAGAAAUUACAGCAAUUUAUCAGCUGAAAUUAUAGGUGUAGACACAUGUCAGCCGUGG
M.mulatta.1 UGAAAUGGAGGAGAAAUUACAGCAAUUUAUCAGCUGAAAUUAUAGGUGUAGACACAUGUCAGCAGUGG
G.gorilla.1 UGAAAUGGAGGAGAAAUUACAGCAAUUUAUCAACUGAAAUUAUAGGUGUAGACACAUGUCAGCAGUGG
H.sapiens.1 UGAAACGGAGGAGACGUUACAGCAACGUGUCAGCUGAAAUGAUGGGCGUAGACGCACGUCAGCGGCGG
P.troglodytes.1 UGAAAUGGAGGAGAAAUUACAGCAAUUUAUCAACUGAAAUUAUAGGUGUAGACACAUGUCAGCAGUGG
P.abelii.1 UGAAAUGGAGGAGAAAUUACAGCAAUUUAUCAACUGAAAUUAUAGGUGUAGACACAUGUCAGCAGUGG
C.lupus.1 UGAAAUGGAGGAGAAAUUACAGCAAUUUAUCAACUGAAAUUAUAGGUGUAGACACAUGUCAGCGGUGC
T.truncatus.1 CGAAAAGGAGGGGAAAUUACAGCAAUUCAUCAACUGAAAUUAUAGGUGUAGACACAUGUCAGCAGUGG
B.taurus.1 CGAAAUGGAGGAGAAAUUACAGCAAUUCAUCAGCUGAAAUUAUAGGUGUAGACACAUGUCAGCAGUGG
V.pacos.1 UGAAACAGAGGAGAAAUUACAGCAAUUCAUCAACCGAAAUGAUAGGGAUAGACAUGUGUCGGCAGUGG
M.lucifugus.1 CGAAAUGGAGGAGAAAUUACAGCAAUUUAUCAACUGAAAUUAUAGGUGUAGACACAUGUCAUCCGUGG
O.anatinus.1 UGAAAUGGAGGAUAAAUUACAGCAAUUUAUCAAAUGAAAUUAUAGGUGUAGACACAUGUCAGCAAUGG
#=GC SS_cons <<<<<<.<<<<<<<<<<<.....>>>>>.....>><<<<<.<<<.<<<....>>>.>>>.........
#=GC RF uGaaacGGaGGagaaguuAcAGcaacuuAUcAgcuGaaacuaugGGcGUAGACgCAcgucAGcaguGg
G.gallus.1 AAACAGUUUCUAUCAAAAUUAAAGUAUUUAGAGAUUUUCCUCAAAUUUCA
M.musculus.1 AAAUGGUUUCUAUCAAAAUUAAAGUAUUUAGAGAUUUUCCUCAAAUUUCA
M.mulatta.1 AAAUAGUUUCUAUCAAAAUUAAAGUAUUUAGAGAUUUUCCUCAAAUUUCA
G.gorilla.1 AAAUAGUUUCUAUCAAAAUUAAAGUAUUUAGAGAUUUUCCUCAAAUUUCA
H.sapiens.1 AAAUGGUUUCUAUCAAAAUGAAAGUGUUUAGAGAUUUUCCUCAAGUUUCA
P.troglodytes.1 AAAUAGUUUCUAUCAAAAUUAAAGUAUUUAGAGAUUUUCCUCAAAUUUCA
P.abelii.1 AAAUAGUUUCUAUCAAAAUUAAAGUAUUUAGAGAUUUUCCUCAAAUUUCA
C.lupus.1 AAACAGUUUCUAUCAAAAUUAAAGUAUUUAGAGAUUUUCCUCAAAUUUCA
T.truncatus.1 GAACACUUUCUAUCAAAAUUAAAGUACUUAGCGAUUUUCCUUAAAUUUCA
B.taurus.1 AAACCGUUUCUAUCAAAAUUAAAGUAUUUAGAGAUUUUCCUUAAAUUUCA
V.pacos.1 AAACAGUUUCUAUCAAAAUUAAAGUAUUUAGAGACUUUCCUCAAAUUUCA
M.lucifugus.1 AAACAGUUACGAUCAAAAUUAAAGUGUUUAGAGAUUUUCCUC.AAUUUUA
O.anatinus.1 AAACAAUUUCUAUCAAAAUUAAAGUAUUUAGAGAUUUUCCUCAAAUUUCA
#=GC SS_cons .....>>>>>....<<<<<..............>>>>>>>>>..>>>>>>
#=GC RF AAAuaguuuCUAUcaaaauuAAAGUAUUUAGAGauuuuCCuCAAguuuCa
//



And the Wikipedia entry


Conﬂicting priorities

A Curator’s priorities A User’s priorities
1. New families 1. FTP (Bioinformaticians)
2. Accuracy of models 2. Website
3. Annotation 3. Visualization
4. Functional codebase 4. Number of families
5. Website 5. Accuracy of models
6. Visualization 6. Annotation

Image credits: www.conﬂictdynamics.org

2007: challenges
Quality Control
Re-write the website and add some bling
Update codebase
Export annotation to Wikipedia
User community input via RNA Biology


Visualisation priorities

SCALE
Two to two million sequences, 30 to 3,000 nucleotides long, 0
to 1,000 basepairs.
AUTOMATED: thousands of families.

INFORMATIVE
Generates biologically relevant hypotheses

INCLUSIVE
Make the most of our fantastic Bioinformatic & Visualisation
community.


Examples

Caveat: none of these images I am showing are ﬁnal solutions,
everything can be improved upon.

Secondary Structure Alignment
Taxonomic Distribution Genomic contexts & Gene
Order


RNA Secondary Structure
5’ 3’

UM
VH
DU
UA HWY A GU
AG CU
U U
G G
A a
G A
Y A
U S
C a
M G
A U
C R
U W
U B
C U
W M
U U
u A
G G
G U
U R
C M
C Y
G C
U M
GU R
UUCUGA g a
0 1
Sequence conservation

Gardner, Bateman & Poole (2010) SnoPatrol: how many snoRNA genes are there?. Journal of Biology.


Old Taxonomic distributions: RybB
Contamination displayed ﬁrst.


Old Taxonomic distributions: RybB
After some scrolling


New Taxonomic distributions: RybB
Sunbursts: concentric “pie charts”, each external ring
contains the “children” nodes of the internal ring.


Alignments

When we have sequenced everything, how is this view going
to look?


Genomic contexts & Gene Order

How can we display comparative gene-order information in a
scalable fashion?
Think of hundreds to thousands of genomes, tens to hundreds
of features.

Barquist L, et al. (2013). A comparison of dense transposon insertion libraries in the Salmonella serovars Typhi and
Typhimurium. Nucleic Acids Research.


Open problems

Evolution and RNA structure
Scalable, alignment visualisation (and editing)
As alignments grow, we need to be able to be able to partition,
compress and summarize groupings of sequences. 1,000s of
sequences from the same species is not interesting to view, nor
is a screen full of gaps.
Expression and conservation levels
Genomic context & gene-order


Thanks!
The Rfam Consortium:
Alex Bateman, Sean
Eddy, Sam
Griﬃths-Jones, Sarah
Burge, Eric Nawrocki,
John Tate, Rob Finn,
Jennifer Daub, Ruth Visualisation Tools:
Eberhardt Ivo Hofacker, Yann
Ponti, Jim Proctor,
Ian Holmes, Irmtraud
Meyer, Zasha
Weinberg and many
others.

PPG is supported by a Rutherford Discovery Fellowship from Government funding, administered by the Royal
Society of New Zealand.


Vizbi2013: Visualising RNA

Recommended

Recommended

More Related Content

More from Paul Gardner

More from Paul Gardner (20)

Recently uploaded

Recently uploaded (20)

Vizbi2013: Visualising RNA