Protein Function Prediction Based on Domain Content
Ankita Sarangi
School of Informatics, IUB
Capstone  Presentation,
May 11, 2009
Advisor : Yuzhen Ye
Sequence based approaches
Protein A has function X, and protein B is a homolog (ortholog) of protein A;Hence B has function X
Structure-based approaches
Protein A has structure X, and X has specific structural features; Hence X’sfunction sites are used to assign function to the Protein A
Motif-based approaches (sequence motifs, 3D motifs)
A group of genes have function X and they all have motif Y; protein A has motifY; Hence protein A’s function might be related to X
“Guilt-by-association”
Gene A has function X and gene B is often “associated” with gene A, B mighthave function related to X
Associations
Domain fusion, phylogenetic  profiling, PPI, etc.
What information can be used for function annotation?
protein domain is a part of proteinsequence and structure that can evolve,function, and exist independently of the restof the protein chain.
Each domain forms a compact three-dimensionalstructure and often can be independently folded.
Many proteins consist of several structural domains.
Among relevant sequence features of aprotein, domains occupy a key position. Theyare sequential and structural motifs foundindependently in different proteins, indifferent combinations, and as such seem tobe the building blocks of proteins
Function Annotation Using Protein Domains
However, it is also known that certain sets ofindependent domains are frequently foundtogether, which may indicate functionalcooperation.
Supra- Domains :  A supra-domain is defined as a domaincombination in a particular N-to-C-terminal orientation that occursin at least two different domain architectures in different proteinswith: (i) different types of domains at the N and C-terminal end ofthe combination; or (ii) different types of domains at one end and nodomain at the other.`
A type of Supra-domain are ones whose activity is created at theinterface between the two domains of a protein
(Ref:  JMB, 2004, 336:809–823)
We may make mistakes if we do function predictionbased on individual domains
We know proteins that have domain A and B have functionF, what about proteins having domain A or domain B only?
Supra-domains
A survey of mis-annotation based on singledomains
We are interested to know how serious this problem is inthe current annotation system
There is no systematic survey on this so far
Function annotation using domain patterns(domain combinations) instead of individualdomains
Utilize the relationship of the predicted functions (asshown in the GO directed acyclic graph of functions)
Provide a web-tool and visualization of the predictedfunctions and their relationship with domain patterns
My Work
SUPERFAMILY is a database of structural andfunctional protein annotations for allcompletely sequenced organisms.
The SUPERFAMILY web site and databaseprovides protein domain assignments, at theSCOP 'superfamily' and 'family' levels, for thepredicted protein sequences in over 900organisms
We made a local copy of this database
Protein Domains: SUPERFAMILY
The GENE ONTOLOGY(GO) project is acollaborative effort to address the need forconsistent descriptions of gene products indifferent databases.
Consists of three structured, controlledvocabularies (ontologies) that describe geneproducts in terms of their associatedbiological processes, cellular components andmolecular functions in a species-independentmanner.
Protein Function: GO
A Survey of Mis-Annotations Using Single Domains
We looked at several supra-domains listed inthis paper:
Supra-domains: Evolutionary
Units Larger than Single Protein Domains;Voget etal.; J. Mol. Biol. (2004) 336, 809–823
Superfamily
Use the SCOP ID of the domains to obtain Gene Identifiersassociated with the supra-domains as well as their individualdomains
UniProt ID mapping file
(is a tab-delimited table, which includes mappings for 20different sequence identifier types(example: ENSGALP000,AN7518.2, Afu1g003, gi|41409236|ref|NP_962072.1|)and
gene_association.goa_uniprot
(GO assignments for the UniProt KnowledgeBase (UniProtKB))
To obtain Swiss prot ID, GO ID
Find Gene Ontology functions that are associated with
proteins which contain both the domains and the individualdomains
Finding Functions for Domains and Domain Combinations
Supra-domain Example 1
The N-terminal domain binds FAD and the C-terminal domain bindsNADPH. The FAD acts as an intermediate in electron transfer betweenNADPH and substrate, and this domain combination is used by manydifferent enzymes
(SCOP ID - 63380)
(SCOP ID – 52343)
Function Annotation for Proteins with Supra-Domains and Single Domains
100% IEA
10 proteins with Supra domains annotated toGO:0016491---- 2491proteins with Supra domains
3 proteins with Riboflavin Synthase domain-likeannotated to GO:0016491 --- 42 proteins withRiboflavin Synthase domain-like
1 protein with reductase-like, C-terminal NADP-linked domain annotated to GO:0016491--- 47protein with reductase-like, C-terminal NADP-linkeddomain
Specific proteins searched and presence and absenceof the combined domain was confirmed along withGO ID as well as annotation evidence which wasfound to be Inferred Electronic Annotation
Function Example : GO:0016491 ((oxidoreductase activity))
Supra –Domains: Riboflavin Synthase domain-like, Ferredoxinreductase-like, C-terminal NADP-linked domain
Protein Name : Oxidoreductase FAD-binding domain protein
 Gene Ontology :  Biological Process: GO:005514 is_a child ofGO:0008152
molecular function: GO:0016491
 PFAM domains:  PF00970. FAD_binding
              PF00175 NAD_binding
Evidence : IEA (Inferred Electronic Annotation)
Proteins: A4FHX1 , A1UCP3, A4T5V2, A3PWD0 ,Q1BCA1
Protein Name : Sulfide dehydrogenase (Flavoprotein) subunitSudA sulfide dehydrogenase (Flavoprotein) subunit SudB
Gene Ontology: Biological Process: GO:005514 is_a child ofGO:0008152
molecular function: GO:0016491
PFAM Domains : PF00175. NAD_binding
  PF07992. Pyr_redox  (FAD_pyr_nucl-diS_OxRdtase.)
Evidence : IEA (Inferred Electronic Annotation)
Proteins:  Q2J1U9, Q13CJ3, Q5PB24
Protein Name : Dihydroorotate dehydrogenase electron transfersubunit, putative
Gene Ontology: Biological Process: GO:005514 is_a child ofGO:0008152
molecular function: GO:0016491
PFAM domains:  PF00970. FAD_binding
               PF00175. NAD_binding
Evidence : IEA (Inferred Electronic Annotation)
 Proteins: A3CN91, Q73P17
Example : GO:0016491
Riboflavin Synthase domain-like
Protein Name : Putative uncharacterizedprotein
Gene Ontology: Biological Process:GO:005514 is_a child of GO:0008152
molecular function: GO:0016491
PFAM Domains : PF07992 - Pyr_redox(Q0A5G3)
OR
 PF08021. FAD_binding (A4FEM2, A1WVX7)
Evidence : IEA (Inferred ElectronicAnnotation)
Proteins:  Q0A5G3, A4FEM2, A1WVX7
Ferredoxin reductase-like, C-terminal NADP-linked domain
 
Protein Name: Protein-P-IIuridylyltransferase
Gene Ontology: Biological Process:GO:0008152 is a parent of GO:0006807
  molecular function: GO:0016491
PFAM:  PF01966 -  NAD Binding
Evidence : IEA (Inferred ElectronicAnnotation) 
Protein: Q6MLQ2
Ref: http://www.uniprot.org/uniprot/
Supra-domain Example 2
PreATP-grasp domain
(SCOP ID = 52440)
Glutathione synthetase ATP-binding
 domain-like (SCOP ID = 56059)
Lots of different enzymes forming carbon–nitrogen bonds
have this combination of domains. Both domains contribute to
substrate binding and the active site, and the C-terminal
domain binds ATP as well as the other substrate;
Function Annotation for Proteins with Supra-Domains and Single Domains
75% IEA
Functional annotations were found to be sharedby proteins having the Supra-domains as well asthe single domains.
The percentage of proteins having Supra-domains were much higher than single domains.
Since, both domains are required for the functionof the protein, the functions assigned to singledomain proteins may be said to be mis-annotated.
This study gave us motivation of developing acomputational tool for function annotation basedon domain combinations (domain patterns)instead of individual domains
RESULTS
Utilize the relationship of the predictedfunctions (as shown in the GO directed acrylicgraph of functions)
Provide a web-tool and visualization of thepredicted functions and their relationshipwith domain patterns
A Novel Computational Tool for Function Annotation Using Domain Content
Functional annotation term F (in this case a GeneOntology) and a domain set D. The probability that aprotein exhibiting D would possess F is modeled as
               P(F|D)=P(D|F)P(F)/P(D)
(i.e., posterior probability of a function given a set ofdomains D; P(D|F), P(F), and P(D) can be learned fromproteins with known functions)
Ref: Predicting protein function from domain content;Forslund et al;Bioinformatics, Vol. 24 no. 15 2008,pages 1681–1687
Probabilistic Approach
Gene Ontology database
gene_association.goa_uniprot
Swisspfam
Datasets Used
For an input domain pattern (pfam domains):
All the Pfam pattern containing the given pattern areextracted (e.g., if input domain pattern is A + B, all thedomain patterns that contain this domain pattern will beconsidered, such as A + B + C, etc)
GO function associated with all the domain patterns areextracted
Calculate the probability using  P(F|D)=P(D|F)P(F)/P(D)
number of proteins that  occurs with the domain patternpossessing the function
If the percentage probabilities lie close to one another thanthe parent GO function is found and a diagram depicting asum of the distance of the parent from the two children isprinted; otherwise the GO terms that have P(F|D) >= 0.9 *Max{P(F|D)} are extracted
Summary  graph providing all the GO functions associatedwith the pattern search
Methodology
Example Domain Input: PF03446 PF00393
Example Domain Input: PF02801
A survey of annotation based on singledomains
Function annotation using domain patterns(domain combinations) instead of individualdomains
To DO:
Do a more thorough survey with the annotationstudies of single domains
Define all the relationships between the GO ID’s  inthe Summary Graph
Refine and test the computational tool.
Conclusion
I would like to thank:
Dr. Yuzhen Ye
Faculty of the Department of Bioinformatics
Drs. Dalkilic, Kim, Hahn, Radivojac, Tang
 
Linda Hostetter  and Rachel Lawmaster
Family and Friends
Acknowledgements