CSLS Retreat 2007
Matan Hofree & Assaf Weiner
1
Outline
A brief introduction to microRNA
Project motivation and goal
Selecting the data sets
Features and data analysis
Results and conclusions
2
What are microRNAs?
Non-coding RNAs that regulate gene expression post-transcriptionaly
22~ nucleotide long
Evolutionary conserved
Located in intergenic regions or introns
Often specific to a particular tissue or a developmentalstage
Human genomes are predicted to encode as many as1000 unique miRs, that together possibly regulate onethird of all genes1
1 Bartel et. al. Cell (2005)
3
How do miRs work?
Ambion, Inc. Explorations  http://www.ambion.com/main/explorations/mirna.html
4
Possible mechanisms of miR-mediatedinhibition of gene expression
Two Types of mechanisms have been observed:
1.Direct effect on translation -  Inhibition of initiation,elongation or termination.
2.Indirect effects – Affects the number of availabletranscripts by degradation or sequestration.
5
Timothy W. Nilsen (2007) Mechanisms of microRNA-mediated gene regulation in animal cells, Trends in Gen. 23, 5,243-249.
miR-target interaction principles
6
Target site in mRNA 3’UTR
Incomplete base pairing
G:U base-pairing
7 fully complementary bases in5’ of miRNA – ‘Seed’
He-L& Hannon-GJ (2004)
miR-target interaction principles
7
Evolutionary conservation of target site
Repeating binding site in many of the known targetgenes
Reinhart-BJ et. al. (2000) Nature 403: 901
Motivation for our work
“Perfect seed pairing is not generally a reliable predictor formiRNA-target interactions” Didiano D. & Hobert O. (2006) Nat. Struct. Mol.
8
Experiment
(modification in target)
Functional
Non-functional
wt target site(control)
 
13 putative targets 3’ UTR withseed match and phylogeneticconservation
 
Binding site in random 3’UTR
 
Original  target site in other miRregulated 3’UTR
 
Motivation for our work
Conclusions from Hobert’s work:
The presence of a well matched miR target site in 3’UTR alone, is not a reliable predictor for a miR-target functional interaction.
Proposed miR-target interactions possibly occur invery specific contexts.
9
The seed is not enough…
10
Discerning the true targets
Possible factors contributing to miR-targetfunctionality:
1.Unique miR-target duplex secondary structure
2.3’ UTR accessibility and target site accessibility
3.RNA-binding protein cofactors
4.Sequence and structural motifs
5.Presence or absence of neighboring binding sites ofthe same or different miRs
11
The long and tedious tale of preparingthe data sets
... AATTCACATTCCGACTTT ...
... GGTAGACATTCCCTTAGA ...
... GGGCTACATTCCTTACGT ...
... CCGATACATTCCTACGGA ...
... AGATTACATTCCTGACCT ...
...
12
Functional miR-target interaction
Non-functional miR-target interaction
... GCCTCACATTCCCCTTGT ...
... CAGTGACATTCCCAGAGA ...
... CATTCACATTCCTCAGTT ...
... TGTCTACATTCCTTATCA ...
... GACCTACATTCCTCATTG ...
...
The long and tedious tale of preparingthe data sets
13
Over expression of miR
miR silencing (antisense)
     treated                   wt
      wt                    treated
Search for down-regulated genes
Search for down-regulated genes
Search for up-regulated genes
Search for up-regulated genes
The long and tedious tale of preparingthe data sets
14
Over expression of miR
miR silencing (antisense)
     treated                   wt
      wt                    treated
Search for down-regulated genes
Search for down-regulated genes
Search for up-regulated genes
Search for up-regulated genes
Lim et al. (2005) overexpression of miR-1, miR-124 and miR-373 in humanHela cells
Esau et al. (2006) &Krutzfeldt et al. (2005)silenced miR-122 in mouseliver cells
Lim et al. (2005)
Fold change downregulation >= 1.4
Expression change P-Val <0.001
Get equally expressed genes( P-Val > 0.85)
Expression above median
Checked fold change ~1
miR-regulated group
miR-non-regulated group
15
Screen out detection anomalies as defined by array
Consistency between 12H and 24H sets
Full 2-8(7 nt) seed match
Screen out detection anomalies as defined by array
Consistency between 12H and 24H sets
Full 2-8(7 nt) seed match
Lim et al. (2005)
16
* Taking into account overlaps between groups
Results so far…
17
CLDN12       AAGAAAACTTCTTGTAGCCTCACATTCCCCTTGTGCAAAGAGCTC
TAGLN2       TAGATATATATTTTAGCAGTGACATTCCCAGAGAGCCCCAGAGCT
ARCN1        GCCACAGTCTGTAATCCATTCACATTCCTCAGTTTCACCACCTCC
TIP120A      TTTCATTCCGTTTGGATGTCTACATTCCTTATCAAAGGATATAAA
PGM2         TTATGTGTTTTACAAAGACCTACATTCCTCATTGTTTCATGTTTG
...
Target conservation
18
(a)Targets alignment around seed
Target conservation
19
CLDN12     C   A    C    A    T    T    C    C    C
           0.5 0.9  0.6  0.8  0.2  0.4  0.6  0.8  0.8
(a)Targets alignment around seed
(b)Extracting conservation values for each target (UCSC hg17)
CLDN12       C    A    C    A    T    T    C    C    C
             0.5  0.9  0.8  0.4  0.6  0.6  0.6  0.8  0.8
TAGLN2       G    A    C    A    T    T    C    C    C
                            0.5
ARCN1        C    A    C    A    T    T    C    C    T
                            0.5
TIP120A      T    A    C    A    T    T    C    C    T
                            0.6
PGM2         T    A    C    A    T    T    C    C    T
                            0.7
========================================================
Conservation:               0.5
Target conservation
20
(a)Targets alignment around seed
(b)Extracting conservation values for each target (UCSC hg17)
(c)Selecting the median value for each position
Target conservation
21
Corrected α = 0.0005
Target conservation
22
Corrected α = 0.0005
Target conservation
23
Corrected α = 0.0005
Seed repeats in 3’ UTR
24
The positive group hasstatistically significantly moresequences with repeating seeds(p=0.00027)
Neighboring seeds density
CLDN12       AAGAAAACTTCTTGTAGCCTCACATTCCCCTTGTGCAAAGAGCTC
TAGLN2       TAGATATATATTTTAGCAGTGACATTCCCAGAGAGCCCCAGAGCT
ARCN1        GCCACAGTCTGTAATCCATTCACATTCCTCAGTTTCACCACCTCC
TIP120A      TTTCATTCCGTTTGGATGTCTACATTCCTTATCAAAGGATATAAA
PGM2         TTATGTGTTTTACAAAGACCTACATTCCTCATTGTTTCATGTTTG
            -20       -10         0        10        20
 
25
hsa-miR-302b
hsa-miR-507
0.2
0.2
0
0.1
0.1
Seed density ofwindow
Seeds density = mean of targets density
0.12
Neighboring seeds density
26
Corrected α=0.00125
 Overlapping seeds (miR bindingsites) may interfere with  miRfunction
 Neighboring seeds contribute tofunctionality
 Possibly favored periodicaldistances between seeds ?
miR-mRNA binding pattern
27
We need a way to determine what is the preferablesecondary structure of the miR-target complex
RNAcofold from the Vienna package
target 5' UUGGCUCACUUGCCUUAGTCATCGCTA 3'
miRNA  3' ACCGUAAGUGGCGCACGGAAUU      5'
target 5' UUGGUCAUUUUUUUUAUAUUGCCUUAU 3'
miRNA  3' ACCGUAAGUGGCGCACGGAAUU      5'
target 5' AUCAUAUUAAUUGUGCCUUAUAGTAAT 3'
miRNA  3' ACCGUAAGUGGCGCACGGAAUU      5'
(a) Using Vienna package RNAcofold we estimated theinteraction between the miR and putative targets
target 5' U                      G 3'
           UGGC  UCACU   UGCCUUA
           ACCG  AGUGG   ACGGAAU
miRNA  3‘      UA     CGC        U 5‘
target 5' U   U      UUUUUAUAU        U 3‘
           UGG CAUUU          UGCCUUA
           ACC GUAAG          ACGGAAU
miRNA  3‘           UGGCGC            U 5‘
target 5'      A    AUAUUAAU           U 3‘
                 UCA         UGUGCCUUA
                 AGU         GCACGGAAU
miRNA  3' ACCGUA    GGC                U 5'
miR-mRNA binding pattern
28
Bound
Notbound
target 5' U                      G 3'
           UGGC  UCACU   UGCCUUA
           ACCG  AGUGG   ACGGAAU
miRNA  3‘      UA     CGC        U 5‘
target 5' U   U      UUUUUAUAU        U 3‘
           UGG CAUUU          UGCCUUA
           ACC GUAAG          ACGGAAU
miRNA  3‘           UGGCGC            U 5‘
target 5'      A    AUAUUAAU           U 3‘
                 UCA         UGUGCCUUA
                 AGU         GCACGGAAU
miRNA  3' ACCGUA    GGC                U 5'
(b) For each miR position we calculated the fraction of times theposition was found bound  in each set.
miR-mRNA binding pattern
29
2/3
3/3
miR-mRNA binding pattern
miR-1
miR-124
30
Corrected p-value α= 0.0025
Corrected p-value α= 0.0025
miR-mRNA binding pattern
31
miR-target bound positions
32
miR-target bound positions
33
Seed extension contributes tofunctionality
 miR-373 - another example ofdifference in its operation mechanism
Seed extension contributes tofunctionality
 miR-373 - another example ofdifference in its operation mechanism
Target accessibility
34
Corrected α = 0.0003
Target accessibility
35
Corrected α = 0.0003
Conclusions
36
miRspecificconclusions
Different binding patterns characterizeeach miR
miR-1 position 13
miR-373 low seed affinity
The function of certain miRs is perhapsmore dependent on multiple bindingsites (miR-373).
Conclusions
37
Generalizingproperties
Positive group targets show evolutionaryconservation
Positive group targets are moreaccessible
Positive group is enriched in repeatingbinding sites of the same miR
Indication for miR cooperation orinterference (periodic binding sites?)
What’s next?
Apply all the tests on additional data sets
Redefine the data sets with imperfect seeds
Further search for structural motifs enriched in ourpositive set
Explore 5’ UTR of the sets we defined for sequence orstructural motifs
Suggest a biological model to mechanism for miR-targetspecificity
Possibly try to generalize the features we’ve found inan SVM based classification program
38
Acknowledgements
Dr. Yael Altuvia
Prof. Hanah Margalit
All the wonderful people in Hanah’s lab.
39